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ESIPUHE 


META-NET Valkoiset kirjat -julkaisusarjan tavoittee- 
na on edistaa tietamysta kieliteknologiasta ja sen tar- 
joamista mahdollisuuksista. Tama julkaisu haluaa he- 
rattaa opettajia, toimittajia, poliitikkoja, kieliyhteisdja 
ja muitakin. 

Euroopan kielten kieliteknologisten sovellusten saata- 
vuus vaihtelee. Niinpa my6s toimenpiteet, joita jatkos- 
sa tarvitaan tukemaan kieliteknologioiden tutkimusta 
ja kehityst, ovat eri kielten kohdalla erilaisia ja riippu- 
vat kielen ominaispiirteista ja kieliyhteisén koosta. 
Euroopan komission rahoittaman META-NET -huip- 
puosaamisverkoston kartoitusty6 tassa valkoisten kir- 
jojen sarjassa (p. 81) kattaa Euroopan 23 virallisen kie- 
len seka tarkeiden kansallisten ja paikallisten kielten 
kieliaineistot ja kieliteknologiat. Tulosten perusteella 
kaikkien kartoitettujen kielten tutkimus karsii merkit- 
tavasta resurssien puutteesta. Yksityiskohtaisempi ny- 
kyisen tilanteen selvitys vahvistaa tulevan tutkimuksen 
vaikutusta ja vahentaa riskeja. 

META-NET koostuu 33 valtion 54 tutkimuskeskuk- 
sesta [1] (s. 77), jotka tekevat yhteisty6ta useiden toi- 
mijoiden ja intressiryhmien kanssa. Mukana on lii- 
keyrityksia, julkisen hallinnon yksikoita, teollisuuden 
edustajia, tutkimusyksik6ita, tietotekniikan alan yri- 
tyksia, teknologian tuottajia ja eurooppalaisia yliopis- 
toja. Tyon tuloksena on syntymissa teknologinen visio 
osana strategista tutkimuslinjausta osoittamaan, miten 
kieliteknologiat auttavat Euroopan tutkimusyhteisoa 
ratkaisemaan keskeisia tutkimuskysymyksia vuoteen 


2020 mennessa. 


PREFACE 


This white paper is part of a series that promotes 
knowledge about language technology and its poten- 
tial. It addresses journalists, politicians, language com- 
munities, educators and others. The availability and 
use of language technology in Europe varies between 
languages. Consequently, the actions that are required 
to further support research and development of lan- 
guage technologies also differ. The required actions 
depend on many factors, such as the complexity of a 
given language and the size of its community. 
META-NET, a Network of Excellence funded by the 
European Commission, has conducted an analysis of 
current language resources and technologies in this 
white paper series (p. 81). The analysis focuses on the 
23 official European languages as well as other impor- 
tant national and regional languages in Europe. The re- 
sults of this analysis suggest that there are tremendous 
deficits in technology support and significant research 
gaps for each language. The given detailed expert anal- 
ysis and assessment of the current situation will help 
maximise the impact of future research. 

META-NET consists of 54 research centres in 33 Eu- 
ropean countries [1] (p. 77). META-NET is working 
with stakeholders from economy (software companies, 
technology providers and users), government agencies, 
research organisations, non-governmental organisa- 
tions, language communities and European universi- 
ties. Together with these communities, META-NET 
is creating a common technology vision and strategic 


research agenda for multilingual Europe 2020. 


META-NET - office@meta-net.eu — http://www.meta-net.eu 


Taman raportin tekijat ovat kiitollisia saksankielisen META- 
NET valkoisen kirjan tekijéille luvasta kayttaa raporttinsa kie- 
lesta riippumattomien osioiden teksteja osana taman raportin 
englanninkielista osuutta seka lahteena suomenkieliselle kaan- 


nokselle [2]. 


Taman valkoisen kirjan tuottamiseen on myénnetty rahoi- 
tusta Euroopan komission seitsemannesta puiteohjelmasta ja 
tieto- ja viestintateknologioiden tukiohjelmasta seuraavien so- 
pimusten perusteella T4ME (rahoitussopimus 249119), CE- 
SAR (rahoitussopimus 271022), METANET4U (rahoitusso- 
pimus 270893) ja META-NORD (rahoitussopimus 270899). 


The authors of this document are grateful to the authors of 
the White Paper on German for permission to re-use selected 


language-independent materials from their document [2]. 


The development of this white paper has been funded by the 
Seventh Framework Programme and the ICT Policy Support 
Programme of the European Commission under the contracts 
T4ME (Grant Agreement 249119), CESAR (Grant Agree- 
ment 271022), METANET4U (Grant Agreement 270893) 
and META-NORD (Grant Agreement 270899). 
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TIIVISTELMA 


Tietotekniikka muuttaa jokapaivaista elamaamme. 
Kaytamme tietokoneita kirjoittamiseen, tekstin muok- 
kaamiseen, laskemiseen, tiedon etsimiseen ja yha enem- 
man mys lukemiseen, musiikin kuunteluun seka va- 
lokuvien ja elokuvien katseluun. Kannamme taskuis- 
samme pienia tietokoneita, joilla soitamme puheluja, 
lahetamme sahk6postia ja viihdytamme itseamme siella 
missa kulloinkin satumme olemaan. Kuinka tama valta- 
va informaation, tietamyksen ja arkisen viestinnan digi- 
talisoituminen vaikuttaa kieleemme? Muuttuuko suo- 
men kieli tai voiko se jopa kadota? Kaikki tietokoneem- 
me ovat yhteydessa toisiinsa entista tiheamméan ja te- 
hokkaamman maailmanlaajuisen verkon kautta. Tytt6 
Ipanemassa, tullimies Imatralla ja insind6ri Katmandus- 
sa voivat jutella ystaviensa kanssa Facebookissa, mutta 
toisiinsa he tuskin koskaan verkossa tormaavat. Jos he 
ovat huolissaan korvasarysta, he kayvat lukemassa Wi- 
kipediasta kaiken mahdollisen taman vaivan hoitoon 
liittyvan, mutteivat silloinkaan lue samaa artikkelia. Ja 
kun Euroopan nettikansalaiset keskustelevat Fukushi- 
man ydinonnettomuuden vaikutuksista eurooppalai- 
seen energiapolitiikkaan, tapahtuu ajatustenvaihto erik- 
seen kunkin kieliyhteison sisaisilla keskustelupalstoilla. 
Kielet erottavat edelleenkin sen minka Internet voisi 
yhdistaéa. Tyydymmeko tahan tilanteeseen myés tule- 


vaisuudessa? 


Tieteiselokuvissa kaikki puhuvat samaa kielta. Voisiko 
tama yhteinen kieli olla suomi, vaikka astronautit har- 
voin lausuvat suomalaisia sanoja yhta luonnollisesti kuin 
he puhuvat englantia? Monet maailman 6000 kielesta 


eivat tule selviytymaan globalisoituneessa digitaalisessa 


tietoyhteiskunnassa. Arviolta vahintaan 2000 kielta on 
tuomittu sukupuuttoon tulevina vuosikymmenina. Joi- 
takin kielia mahdollisesti kaytetaan jatkossakin perheis- 
sa ja kylayhteisdissa, mutta ei yrityksissa tai akateemises- 
sa maailmassa. Minkalaiset siis ovat suomen kielen sel- 


viytymismahdollisuudet? 


Suomea puhuu yli 5 miljoonaa ihmista, joten se on mo- 
niin muihin kieliin verrattuna kohtalaisen hyvassa ase- 
massa. Suomenkielisia julkisia televisiokanavia on nel- 
ja ja yksityisia yli 30. Useimmat kansainviliset eloku- 
vat tekstitetaan suomeksi. Suomen kieli on todennakoi- 
sesti hieman vahvistanut asemiaan sen jalkeen kun Suo- 
mi liittyi EU:n taysjaseneksi. Kielen puhujien, kirjojen, 
elokuvien ja televisiokanavien maaran lisaksi tietyn kie- 
len tilanne riippuu myés sen digitaalisesta lasnaolosta 
tietoverkoissa ja sovellusohjelmissa. Tallakin mittapuul- 
la suomi sijoittuu kohtalaisen hyvin: kaikki keskeiset 
kansainvaliset ohjelmistotuotteet ovat saatavilla suoma- 
laisina versioina, suomenkielisessa Wikipediassa on yli 


290 000 artikkelia ja verkkotunnus .fi on hyvin suosittu. 


Kieliteknologian alalla suomen kielelle on tarjolla koh- 
tuullinen maara tuotteita, teknologioita ja kielivaroja. 
On olemassa suomenkielisia sovelluksia ja ty6kaluja pu- 
hesynteesia, puheentunnistusta, tiedonhakua seka oi- 
keinkirjoituksen ja kieliopin tarkistusta varten. On ole- 
massa my6s joitakin automaattista kaantamista varten 
kehitettyja sovelluksia, vaikka ne eivat usein tuotakaan 
kielellisesti ja idiomaattisesti oikeita kaanndksia varsin- 
kaan kun suomi on kohdekielena. Tahan ovat osittain 


syyna suomen kielen erityispiirteet. 


Tieto- ja viestintatekniikka valmistautuvat nyt seuraa- 
vaan vallankumoukseen. Mikrotietokoneita, multime- 
diaa, tietoverkkoja, laitteiden pienentymista, multime- 
diaa, mobiililaitteita ja pilvilaskentaa seuraava teknolo- 
gian sukupolvi luo ohjelmistoja, jotka ymmartavat kir- 
jainten ja aanteiden lisaksi myés kokonaisia sanoja ja 
lauseita. Tallaiset ohjelmistot palvelevat kayttajiaan en- 
tista paremmin, koska ne puhuvat ja ymmartavat hei- 
dan kieltaan. Alan edellakavijdita ovat ilmainen online- 
palvelu Google Translate, joka kaantaa 57 kielen vaililla, 
IBM:n supertietokone Watson, joka paihitti Jeopardy- 
tietovisassa Yhdysvaltojen mestarin, seka Applen iPho- 
neen kehittamé Siri-avustaja, joka reagoi aanikomentoi- 
hin ja vastaa englanniksi, saksaksi, ranskaksi ja japaniksi 


esitettyihin kysymyksiin. 


Tietotekniikan seuraava sukupolvi tulee hallitsemaan 
ihmiskielen niin laajasti, etta erikieliset kayttajat pysty- 
vat viestimaan keskenaan kukin omalla kielellaan. Help- 
pokayttéisten aanikomentojen pohjalta laitteet osaavat 
hakea automaattisesti tarkeimmat uutiset ja muuta tie- 
toa maailman digitaalisista tietovarannoista. Kielitek- 
nologian avulla voidaan tehda automaattisia kaanndksia 
jaavustaa tulkkeja. Sita voi kayttaa tulevaisuudessa myés 
keskustelujen ja asiakirjojen tiivistamiseen seka opiske- 
lun tukena. Kieliteknologia voi esimerkiksi auttaa maa- 
hanmuuttajia oppimaan suomea ja integroitumaan pa- 


remmin suomalaiseen kulttuuriin. 


Seuraavan sukupolven tieto- ja viestintatekniikan avul- 
la kehitellaan jo nyt tutkimuslaboratorioissa teollisuu- 
den ja palvelualan robotteja, jotka seka ymmiartavat tay- 
sin mita kayctajat niilta haluavat etta osaavat raportoida 
omista saavutuksistaan. Tallaiseen suoritustasoon paa- 
seminen vaatii paljon enemman kuin pelkkien merkis- 
tojen, sanakirjojen, oikolukuohjelmien ja 4antamissaan- 
tojen kayttoa. Yksinkertaistettu lahestymistapa tekno- 
logiassa ei enaa riita, vaan on ryhdyttava mallintamaan 
kielta kokonaisvaltaisesti. On samanaikaisesti huomioi- 


tava seka syntaksi etta semantiikka, jotta myds mutkik- 


kaita kysymyksia voidaan ymmiartaa ja antaa niihin pe- 


rusteellisia ja relevantteja vastauksia. 


Englannin ja suomen valilla on kuitenkin ammotta- 
va teknologinen kuilu, joka tata nykya vielapa levenee. 
1980- ja 1990-luvun menestyksekkaiden tutkimussaa- 
vutusten jalkeen Suomi on nyt menettémassa rooliaan 
kieliteknologian edistajana. Kieliteknologian perustut- 
kimusta rahoitettiin tutkimuksen huippuyksik6n tasol- 
la 1980- ja 1990-luvuilla, mika johti useiden kehitettyi- 


hin tuotteisiin perustuvien yritysten perustamiseen. 


Perustutkimuksen rahoituksen kauden jalkeen teknolo- 
giateollisuuteen liittyvat hankkeet ovat saaneet vain pie- 
nimuotoista rahoitusta Tekesilta (teknologian ja inno- 
vaatioiden kehittamiskeskukselta). Taman seurauksena 
Suomi (ja koko Eurooppa) menetti joitakin erittain lu- 
paavia huipputekniikan innovaatioita Yhdysvaltoihin, 
jossa tutkimuksen strateginen suunnittelu on pitkajan- 
teisempaa ja rahoitusta on paremmin saatavilla myds 
uusien teknologioiden markkinoille tuomiseen. Vaik- 
ka uraauurtavalla tuoteidealla onnistuisikin saamaan va- 
raslahdén teknologisten innovaatioiden kilpailussa, voi 
oman etuly6ntiasemansa varmistaa vain siina tapaukses- 
sa, etta pystyy myés ylittamaan maaliviivan. Muuten ka- 


teen jaa pelkka kunniamaininta Wikipediassa. 


Kun kieliteknologian perustutkimuksen rahoitus vahe- 
ni, siirtyivat monet suomalaiset asiantuntijat erilaisiin 
pienyrityksiin. Yhdysvaltalaiset yritykset kayttivat re- 
surssejaan kehittaakseen teknologioista itselleen kaytt6- 
kelpoisia tuotteita. Tasta huolimatta Suomessa on edel- 
leen hyvin suuri tutkimuspotentiaali. Kansainvélises- 
ti tunnettujen tutkimuskeskusten ja yliopistojen lisaksi 
taalla on my6s innovatiivisia pienia ja keskikokoisia kie- 
liteknologiayrityksia, jotka pysyvat hengissa silkan luo- 
vuuden ja valtavien ponnistusten ansiosta, vaikka niil- 
la ei olekaan riskipaaomaa tai jatkuvaa julkista rahoitus- 
ta. Suomenkielisen kieliteknologian varhaisen kaupalli- 
sen menestyksen takia ei tutkimusyhteis6 enaa paassyt- 


kaan kayttamaan suomen kielen kasittelyyn kehitettyja 


perustyOkaluja kuten jasentimia ja sanastoja. Yllattava- 
na seurauksena tasta suomalaisissa tutkimusprojekteis- 
sa ei enaa juuri kaytetty nimenomaan suomen kielelle 
kehitettya teknologiaa, vaan useimmat tutkimus- ja ke- 
hitystyon tuloksina syntyneet prototyypit pohjautuivat 
englannille. 

Riittavan kielivaroja ja perustutkimusta tukevan rahoi- 
tuksen puutteen vuoksi suomi on harvoin ollut edus- 
tettuna kansainvalisissa teknologiakilpailuissa. Nain on 
kaynyt esimerkiksi tiedonpoiminnan, kieliopin tarkis- 
tuksen, konekaantamisen ja monien muidenkin sovel- 
lusalojen kohdalla. 

Monet tutkijat arvelevat naiden ongelmien johtuvan sii- 
ta, etta jo viidenkymmenen vuoden ajan seka tietoko- 
nelingvistiikan algoritmit ja menetelmat etta kielitek- 
nologisten sovellusten tutkimus ovat ensisijaisesti kes- 
kittyneet vain englannin kieleen. Vuosina 2008-2010 
julkaistujen johtavien konferenssijulkaisujen ja tieteel- 
listen aikakauslehtien valikoimassa 971 artikkelissa ka- 
siteltiin englanninkielista kieliteknologiaa ja vain kym- 
menessa suomenkielista. Tanska ja ruotsi olivat parem- 
min edustettuina: tanskankielisesta teknologiasta pu- 
huttiin 26:ssa ja ruotsinkielisesta 19:ssa artikkelissa. 
Norjan kieli jai hannanhuipuksi vain kahdella artikke- 
lilla. 

On kuitenkin sellaisiakin tutkijoita, joiden mielesta 
englanti luonnostaan sopii paremmin tietokoneella ka- 
siteltavaksi. Nykymenetelmilla myés espanjan ja rans- 
kan kaltaiset kielet ovat paljon helpompia kasitella kuin 
suomi. Tarvitsemme siis asialleen omistautuvaa, joh- 
donmukaista ja pitkajanteista tutkimustyéta, jos ha- 
luamme hyéddyntaa tieto- ja viestintateknologian seu- 
raavaa sukupolvea niilla yksityis- ja tyoelamamme alueil- 
la, joilla nyt puhumme ja kirjoitamme suomea. Kai- 
ken kaikkiaan voidaan todeta, etta tuhon ennustajis- 
ta ja englanninkielisen tietojenkasittelyn kyvykkyydesta 


huolimatta suomen kieli ei ole vaarassa. Tilanne voi kui- 


tenkin dramaattisesti muuttua, kun uusi teknologiasu- 
kupolvi todella alkaa osata ihmiskielia. Konekaantami- 
sen kehittyessa kielimuurien ylittaminen kyllakin hel- 
pottuu, mutta vain sellaisten kielten valilla, jotka ovat 
selviytyneet digitaalisessa maailmassa. Myés pienet kie- 
let selviytyvat varmemmin, jos niille on saatavilla sopivia 
kieliteknologisia valineita. 

“Harjaa vain niita hampaita, jotka haluat pitaa’, varoit- 
taa hammaslaakari leikkisasti. Varoitus patee myés tut- 
kimuksen tukitoimiin. On kuitenkin muistettava, etta 
opiskella voi mita kielta tahansa, mutta kallista tekno- 
logiaa kannattaa kehittaa ainoastaan niita kielia varten, 
joiden halutaan sailyvan elinvoimaisina. 
META-NETin pitkan tahtdimen tavoite on tuoda kor- 
kealuokkaista kieliteknologiaa kaikkien kielten saata- 
ville, jotta poliittinen ja taloudellinen yhtenidisyys voi- 
daan saavuttaa kulttuurinen monimuotoisuus siailyt- 
taen. Teknologia tulee avustamaan olemassa olevien es- 
teiden poistamisessa ja yhteyksien rakentamisessa Eu- 
roopan kielten vilille. Tarvittava teknologinen kehitys 
edellyttaa, etta kaikki toimijat politiikan, tutkimuksen 
kuin yhteiskunnan saralla yhdistavat voimansa tavoit- 
teen saavuttamiseksi. 

Kieliteknologisissa hybridimalleissa kielen syvaraken- 
teen prosessointi yhdistyy tilastollisiin malleihin. Us- 
komme niita hyédyntavan modernin kieliteknologian 
mahdollisuuksiin rakentaa yhteyksia Euroopan kielten 
valille. Tassa raportissa kuvataan Euroopan jasenvaltioi- 
den kieliteknologian tutkimuksen tilannetta ja kartoi- 
tetaan kaytettavissa olevien ratkaisujen valmiusastetta 
kussakin META-NETin jasenmaassa. 

META-NET Valkoiset kirjat -julkaisusarja on hank- 
keen keskeisia tehtavia ja se toimii pohjana strategisille 
toimenpide-ehdotuksille. META-NET julkaisee ajan- 
tasaista tietoa toiminnastaan, kuten visiopaperin [3] 
ja strategisen tutkimussuunnitelman, verkkosivuillaan 


http://www.meta-net.eu. 


UHKA KANSALLISKIELILLE ON HAASTE 


KIELITEKNOLOGIALLE 


Olemme todistamassa digitaalista vallankumousta, jon- 
ka vaikutukset viestinnan toimivuuteen ja sita kautta 
koko yhteiskuntaan tulevat olemaan merkittavia. Tieto- 
ja viestintatekniikan viimeaikaista kehitysta on toisi- 
naan verrattu Gutenbergin keksimaan kirjapainotek- 
niikkaan. Millaisia oletuksia Euroopan tietoyhteiskun- 
nan ja erityisesti kieltemme tulevaisuudesta voimme ver- 


tauksen pohjalta tehda? 


Digitaalisen vallankumouksen vaikutukset 
yhteiskuntaan tulevat olemaan merkittavid. 


Gutenbergin keksinnésta seurasi todellisia lapimurtoja 
viestinnassa ja tiedon siirrossa, kuten Lutherin Raama- 
tun kaannos kansankielelle. Gutenbergin ajan jalkeen 
kuluneina vuosisatoina on kehitetty eri kulttuurien tar- 
peisiin monenlaisia teknikoita parantamaan kielenka- 


sittelya ja tietamyksen siirtoa: 


= suurten kielten ortografinen ja kieliopillinen stan- 


dardisointi mahdollisti 


= uusien tieteellisten ja henkisten saavutusten nopean 


levittamisen; 


® virallisten kielten kehittyminen mahdollisti kansa- 
laisten kommunikoinnin tiettyjen (usein poliittis- 
ten) rajojen sisalla; 

= kielten opetus ja kaantaminen mahdollisti kieltenva- 


lisen viestinnan; 


= tekstin toimittamisen ja bibliografian laatimisen 
suositusten luominen takasi painotuotteiden laa- 


dun; 


= erilaiset viestintakanavat, kuten sanomalehti, radio, 
televisio ja kirja, tyydyttivat erilaisia viestinnallisia 


tarpeita. 


Informaatioteknologia on kuluneiden kahdenkymme- 
nen vuoden aikana auttanut automatisoimaan asioita ja 


helpottanut monia toimintojamme arjessa: 


= tietokoneavusteinen julkaisuohjelma on korvannut 


kirjoituskoneen ja ladonnan; 


= piirtoheitinkalvot tehdaan nykyisin esitysmateriaa- 
lien tuottamista varten tehdyilla ohjelmilla, kuten 
OpenOfficen esitysgrafiikat tai Microsoft Power- 


Point; 
# sahk6posti lahettaa ja vastaanottaa tiedostoja no- 


peammin kuin faksi; 


= yvoimme puhua edullisia tai jopa ilmaisia Internet- 
puheluja ja kokoontua virtuaalisesti verkkokeskuste- 


luohjelmien avulla; 


= 4anen ja kuvan tallennusformaatit tekevat multime- 


diasisallon jakamisen helpoksi; 


= hakukoneet tarjoavat asiasanaperusteista verkkosi- 


vujen hakumahdollisuutta; 


= verkossa olevat palvelut kuten Googlen Kaantaja 


tuottavat nopeita, summittaisia kaainnoksia; 


= sosiaalisen median alustat kuten Facebook, Twit- 
ter ja Google+ mahdollistavat kommunikaation, yh- 


teistyOn ja tiedonjaon. 


Vaikka mainitut ty6kalut ja sovellukset ovat hyédyllisia, 
ne eivat viela kykene tukemaan kaikkien kansalaisten ta- 
voittamaa monikielista Euroopan yhteisda, jossa tieto ja 


tavarat voivat liikkua vapaasti. 


2.1 KIELTEN VALISET RAJAT 
ESTEENA EUROOPAN 
TIETOYHTEISKUNNAN 
KEHITYKSELLE 


Emme kykene ennustamaan tarkasti, millaiselta tulevai- 
suuden informaatioyhteiskunta nayttaa, mutta on hyvin 
todennakoista, etta tietotekniikan vallankumous tuo eri 
kielia puhuvia ihmisia yhteen uusilla tavoin. Kansalaisil- 
le syntyy tarpeita oppia uusia kielia ja sovellusten kehit- 
tajille tilaus luoda uusia teknologisia sovelluksia, joiden 
avulla voidaan varmistaa, etta ynmarramme toisiamme 


ja saavutamme kaiken tarvitsemamme tiedon. 


Yha enemman kielid, puhyjia ja sisalt6a on 
jatkuvassa vuorovaikutuksessa keskenddn. 


Maailmanlaajuisten talousmarkkinoiden alueella ja tie- 
donkulun kentalla yha enemman kielia, puhujia ja sisal- 
toa on jatkuvassa vuorovaikutuksessa keskenaan uusien 
viestintavalineiden avulla entista nopeammin. Sosiaali- 
sen median (Wikipedia, Facebook, Twitter, YouTube) 
suuri suosio on vain jaavuoren huippu. 

Voimme nykyisin siirtaa gigatavujen kokoisia teksteja 
ympari maailmaa muutamassa sekunnissa huomaamat- 
ta, etta toimimme kielella, jota emme edes ymmiarra. Eu- 
roopan komission tuoreen raportin mukaan 57% In- 
ternetin kayttajista Euroopassa ostaa tavaroita ja palve- 


luja kayttéen muuta kuin aidinkieltéan kaupanteossa. 


Englanti on kaikkein tavallisin vieras kieli, ja seuraavi- 
na tulevat ranska, saksa ja espanja. 55% kayttajista lu- 
kee sisaltoa vieraalla kielella, kun taas vain 35% kayttaa 
vierasta kielta kirjoittaessaan sahkoposteja tai lisatessaan 
kommentteja verkkoon [4]. Viela muutama vuosi sitten 
englannin asema verkon lingua franca -kielend oli kiista- 
ton — suurin osa verkossa olevasta sisallésta oli englan- 
niksi — mutta tilanne on nyt ratkaisevasti muuttunut. 
Muilla eurooppalaisilla kielilla samoin kuin Aasian ja 
Lahi-idan kielilla tuotetun sisallon madara on kasvanut 
rajahdysmiisesti. 

Kielellisten raja-aitojen aiheuttama kuilu sahkoisessa 
kanssakaymisessa on saanut hammiastyttavan vahan jul- 
kista huomiota. Sen tiedostaminen nostaa kuitenkin 
esiin oleellisen kysymyksen: Mitka Euroopan kielista tu- 
levat kukoistamaan verkottuneessa tieto- ja osaamisyh- 


teiskunnassa, ja mitka katoamaan? 


2.2 KIELET KOHTAAVAT UUSIA 
UHKIA 


Samalla kun painotekniikka edisti tiedonvalitysta Eu- 
roopan sisalla, se my6s johti monien Euroopan kielten 
katoamiseen. Paikallisilla kielilla ja vahemmistokielilla 
julkaistiin harvemmin. Joitakin kielia, kuten kornin kieli 
ja dalmatian kieli, kaytettiin vain suullisessa viestinnas- 
sa, mika puolestaan rajoitti niiden kayton alaa. Tuleeko 


Internetilla olemaan sama vaikutus kieleemme? 


Euroopan kielten moninaisuus on 
sen tdrkeimpid voimavaroja. 


Euroopan noin 80 kielté muodostavat yhden sen rik- 
kaimmista ja tarkeimmista kulttuurien varaan raken- 
tuvista kilpailuvalteista [5]. Vaikka isot kielet, kuten 
englanti ja espanja, tulevat todennakdisesti selviytrymaan 
kasvavilla digitaalisilla markkinoilla, voivat monet eu- 


rooppalaisista kielisté joutua verkostoituneessa yhteis- 


kunnassa yhdentekevan kielen asemaan. Tallainen kehi- 
tys heikentdisi Euroopan asemaa maailmassa ja haittai- 
si Euroopan strategiaan sisaltyvaa tavoitetta taata kai- 
kille Euroopan kansalaisille yhtalainen oikeus osallistu- 
miseen kielesta riippumatta. Unescon raportti monikie- 
lisyydesta osoittaa, etta kielet ovat elintarkeita perus- 
oikeuksien turvaamisessa, joita ovat esimerkiksi oikeus 
koulutukseen, oikeus ilmaista poliittinen mielipiteensa 


ja oikeus osallistua yhteiskunnalliseen toimintaan [6]. 


2.3 KIELITEKNOLOGIA TUKEE 
KIELTEN SAILYMISTA 


Tahan asti toimenpiteet kielen sailymisen puolesta ovat 
kohdistuneet lahinna kielen opetukseen ja kaantami- 
seen. Eurooppalaiset kaanndstoiminnan, tulkkauksen ja 
lokalisoinnin markkinat vuonna 2008 olivat 8,4 mil- 
jardin euron arvoiset ja niiden odotetaan yha kasvavan 
10 prosentin vuosivauhdilla [7]. Luku kattaa kuitenkin 
vain pienen osan kieltenvalisen viestinnan nykyisista ja 
tulevaisuuden tarpeista. Tavoitteena on varmistaa, et- 
ta tulevaisuuden Euroopassa kansallisia kielia voidaan 
kayttaa laaja-alaisesti kaikkiin tarkoituksiin. Tarkoituk- 
senmukainen teknologia on avuksi tavoitteen saavutta- 
misessa samalla tavoin kuin teknologia ratkaisee mm. 
kuljetuksen ja energiatalouden kysymyksia ja vastaa eri- 


tyisryhmien tarpeisiin. 


Kieliteknologiat auttavat meita ottamaan osaa 
monikieliseen sosiaaliseen ja poliittiseen 
keskusteluun. 


Kieliteknologian tutkimuskohteita ovat kaikki kirjoi- 
tetun ja puhutun kielen muodot. Sovellukset auttavat 
meita tekemaan yhteisty6ta, hoitamaan liikeasioita, ja- 
kamaan tietoa ja ottamaan osaa sosiaaliseen ja poliitti- 
seen keskusteluun kielellisista rajoitteista ja tietoteknii- 


kan taidoista riippumatta. Usein ne toimivat apunam- 


me nakymattémalla tavalla monimutkaisten tietokone- 


jarjestelmien syvyyksissa ja auttavat: 


= |6ytamaan tietoa Internetin hakukoneen avulla; 

= tarkistamaan tekstinkasittelyohjelman sisalla oikein- 
kirjoituksen ja kieliopin; 

= saamaan tuotetta koskevia suosituksia nakyviin verk- 


kokaupassa; 


# kuuntelemaan puhuttua ohjeistusta auton navigaat- 


torista; 


= kaantamaan verkkosivuja verkossa olevan palvelun 


avulla. 


Kieliteknologiat koostuvat erilaisista keskeisista ydin- 
teknologioista, joita kaytetaan laajemmissa tehtavako- 
konaisuuksissa monenlaisten tehtavien suorittamiseen. 
Tavoitteena META-NET valkoisten kirjojen julkai- 
susarjassa on selvittaa, missa vaiheessa eurooppalaisten 


kielten ydinteknologiat tanaan ovat. 


Eurooppa tarvitsee vakaata, kohtuuhintaista ja 
tarkeimpiin ohjelmistoymparistdihin integroitua 
kieliteknologiaa. 


Jotta voisimme sailyttaa asemamme kehityksen etujou- 
koissa maailmassa, tarvitsemme kaikille Euroopan kielil- 
le sovitettua kieliteknologiaa, joka on vakaata, kohtuu- 
hintaista ja tarkeimpiin ohjelmistoymparistéihin tiiviis- 
ti integroitua. Ilman kieliteknologiaa emme piise kayt- 
tajind nauttimaan todella tehokkaista, interaktiivisista 
ja multimediaa tehokkaasti hyédyntavista monikielisis- 


ta sovelluksista lahitulevaisuudessa. 


2.4 KIELITEKNOLOGIAN 
MAHDOLLISUUKSIA 


Painotuotteiden maailmassa todellinen teknologinen 


lapimurto oli paperilla olevan kuvan (tekstin) nopea 


monistaminen kayettavissa olevalla tekniikalla toimi- 
van kirjapainokoneen avulla. Ihmisten piti noina aikoi- 
na tehda tiedon etsimisen, omaksumisen, kaantamisen 
ja tiivistamisen edellyttama ty6 kasityona. Puheen nau- 
hoittamiseksi piti odottaa Edisonia — ja silloinkin tulok- 
sena oli vain analogisia kopioita. 

Nykyisin kieliteknologia tarjoaa mahdollisuuden auto- 
matisoida kaantamisen, sisallontuotannon ja tietamyk- 
sen hallinnan prosesseja kaikilla Euroopan kielilla. Sita 
tarvitaan my6s mahdollistamaan helppokayttdisia kie- 
leen tai puheeseen pohjautuvia kayttéliittymia koti- 
talouksille suunnattuihin elektronisiin tuotteisiin, ajo- 
neuvoihin, tietokoneisiin ja robotteihin. Vaikka kau- 
palliset ja teolliset sovellukset ovat todellisuudessa vie- 
la kehityksen esiasteita, tutkimuksen ja tuotekehityk- 
sen saavutukset luovat aitoja mahdollisuuksia tulevai- 
suuden ratkaisuihin. Erikoisalojen konekaannés toimii 
esimerkiksi jo suhteellisen tarkasti, ja kokeelliset sovel- 
lukset sisaltavat monikielisia informaation ja tietamyk- 
sen hallintatyékaluja samoin kuin sisallontuotantoa tu- 


kevia ohjelmia useilla eurooppalaisilla kielilla. 


Kieliteknologia auttaa vastaamaan 
monikielisyyden haasteisiin. 


Useimpien teknologioiden tavoin ensimmiaiset kielitek- 
nologiset sovellukset, kuten aanipohjaiset kayttéliitty- 
mat ja dialogijarjestelmat, kehitettiin hyvin erikoistu- 
neille aloille ja niiden suorituskyky on usein rajalli- 
nen. Toisaalta opettamisen puolella ja viihdeteollisuu- 
dessa loytyy huikeita kaupallisia mahdollisuuksia in- 
tegroida kieliteknologioita peleihin, kulttuuriperinté- 
sivustoihin, opetusviihdepaketteihin, kirjastojen palve- 
luihin, erilaisiin simulaatioymparistoihin ja harjoitte- 
luohjelmiin. Mobiilit tietopalvelut, tietokoneavustei- 
nen kielen oppiminen, verkko-opetusymparistot, itsear- 
vioinnin tyokalut ja plagioinnin tunnistusohjelmat ovat 


vain joitakin esimerkkeja sovellusaloista, joissa kielitek- 


nologialla voi olla tarkea rooli. Sosiaalisen median sovel- 
lusten kuten Twitterin tai Facebookin suosio osoittaa, 
etta jatkossakin tarvitaan kehittyneita kieliteknologioi- 
ta, joiden avulla voidaan tarkkailla viestiliikennetta, teh- 
da yhteenvetoja keskusteluista, havaita trendeja erilais- 
ten kyselyjen perusteella, dokumentoida tunnepohjaisia 
reaktioita tai tunnistaa tekijanoikeusloukkauksia. 
Kieliteknologia tarjoaa Euroopan unionille monenlaisia 
ratkaisuja. Se auttaa meita vastaamaan Euroopan moni- 
naisiin monikielisyyden haasteisiin — sithen arkipaivaan, 
jossa eri kielet elavat luonnostaan sovussa eurooppalai- 
sessa liike-elamassa, organisaatioissa ja kouluissa. Mut- 
ta kansalaisten tulee voida kommunikoida ristiin rastiin 
Euroopan yhteismarkkina-alueella kielten rajojen yli - 
ja tata kieliteknologia voi edesauttaa tarjoamalla ratkai- 
suja, jotka ovat kaikkien kansalaisten saavutettavissa ja 
joiden avulla kommunikointi onnistuu kaikilla kielilla. 
Kieliteknologia voidaan nahda avustavana teknologia- 
na, kun ratkaistaan kielellisen monimuotoisuuden kysy- 
myksia ja helpotetaan kieliyhteisdjen valista viestintaa. 
Eras aktiivisista tutkimuskohteista on kieliteknologian 
hyédyntaminen pelastusoperaatioissa katastrofialueilla, 
kun toimintakyvyn ripeys on elaman ja kuoleman kysy- 
mys: tulevaisuuden useita kielia taitavat alykkaat koneet 
voivat pelastaa ihmishenkia. 

Panostamalla tulevaisuudessa innovatiiviseen euroop- 
palaiseen monikieliseen kieliteknologiaan Eurooppa voi 


nayttaa suuntaa muulle maailmalle. 


2.5 KIELITEKNOLOGIAN 
HAASTEITA 


Vaikka kieliteknologia on tutkimus- ja sovellusalueena 
jo ottanut isoja edistysaskeleita, on teknologinen edistys 
ja tuotekehitys nykyisellaan liian hidasta. Laajalti kay- 
tossd olevat teknologiat, kuten oikeinkirjoituksen ja kie- 
liopin tarkistusohjelmat, ovat tyypillisesti yksikielisia ja 


niita on saatavissa vain kouralliselle kielia. Verkon tar- 


joamat kaannéspalvelut, vaikka ovatkin hyva apu tiedos- 
ton sisallon likimaaradisen vastineen tuottamisessa, ovat 
hankaluuksissa heti, kun tarvitaan oikein tarkkoja ja yh- 
denmukaisia kaannoksia. Ihmiskielen monimutkaisuu- 
desta johtuen kielten mallintaminen ohjelmallisesti ja 
niiden testaaminen todellisessa elamassa on pitka ja kal- 
lis liiketoiminnan muoto, joka edellyttaa pitkan aikava- 


lin rahoitussitoumuksia. 


Teknologinen edistys ja tuotekehitys 
tapahtuvat liian hitaasti. 


Euroopan tulee siksi pitaa kiinni edellakavijan roolis- 
taan monikielisen yhteisén teknologisten haasteiden 
kohtaamisessa ja kehittaa uusia menetelmia kehityksen 
nopeuttamiseksi koko Euroopassa. Nama voivat tarkoit- 
taa seka tietoteknisia edistysaskeleita etta uusia teknii- 
koita, kuten yleison osallistamisen menetelma kansalais- 


ten tietamyksen hyédyntamisessa. 


2.6 KIELEN OMAKSUMISESTA 


Ennen kuin lahdemme pohtimaan tarkemmin sita, mi- 
ten tietokoneet kasittelevat kieliainesta ja miksi niita 
on vaikeaa ohjelmoida hyédyntamaan kielta, tarkaste- 
lemme lyhyesti ihmisten ensimmiisen ja toisen kielen 
omaksumista ja sen jalkeen tutustumme tarkemmin kie- 
liteknologisten jarjestelmien toimintaan. Ihmiset op- 
pivat kielta kahdella tavalla, oppimalla esimerkeista ja 
tekemalla niista yleistyksia. Vauvat omaksuvat kielen 
kuuntelemalla ja osallistumalla itse aitoihin vuorovai- 
kutustilanteisiin vanhempiensa, sisarustensa ja muiden 
perheenjasenten kanssa. Noin kaksivuotiaista eteenpain 
lapset alkavat tuottaa sanoja ja lyhyita fraaseja itse. Ta- 
ma on mahdollista ainoastaan siksi, etta ihmisilla on ge- 
neettinen taipumus matkimiseen ja kuulemansa puheen 


analysointiin. 


Ihmiset oppivat kielta kahdella tavalla, oppimalla 
esimerkeista ja tekemalld niista yleistyksia. 


Vanhempana lapsen vieraan kielen oppiminen vaatii 
enemmian vaivannak6a, paaosin siksi, ett oppija ei enaa 
ole osa kielté aidinkielenaan puhuvien kieliyhteisoa. 
Koulussa vieraat kielet usein omaksutaan opettelemal- 
la kielen kieliopillista rakennetta, sanastoa ja oikeinkir- 
joitusta harjoitusten avulla, jotka kuvaavat kasitystam- 
me kyseisesta kielesta abstraktien saantéjen, taulukoi- 
den ja esimerkkien kautta. Vieraan kielen oppiminen 
vaikeutuu ian my6ta. Kieliteknologisten menetelmien 
kaksi paatyyppia oppivat tietoa kielesta samalla tavoin. 
Tilastolliset (tai ‘aineistolahtdiset’) lahestymistavat eris- 
tavat kielitietoa valtavista aitojen esimerkkitekstien ko- 
koelmista. Vaikka esimerkiksi oikeinkirjoituksen tar- 
kistimelle riittaa harjoitusaineisoksi yksikielinen teksti, 
konekaanndsjarjestelmien treenaamiseen tarvitaan rin- 
nakkaisteksteja kahdesta tai useammasta kielesta. Ko- 
nekaannésalgoritmi oppii niiden rakenteita ja paattelee, 
miten sanat, lyhyet fraasit ja kokonaiset virkkeet on niis- 


sa kaannetty. 


Kieliteknologisten menetelmien pddtyypit oppivat 
tietoa kielesta samalla tavoin. 


Tilastollinen lahestymistapa saattaa edellyttaa miljoo- 
nien virkkeiden aineistoa, ja menetelmien laatu para- 
nee analysoidun tekstin maaran kasvaessa. Tama on yk- 
si syy siihen, etta hakukoneiden kehittajat keraavat niin 
suuria maaria kirjoitettua kieliainesta kuin mahdollista. 
Google-haku ja Googlen Kaantaja perustuvat kaikki ti- 
lastollisiin menetelmiin. Tilastoista saatava suuri hyéty 
syntyy koneen kyvysta oppia nopeasti sille jaksoittaise- 
na tarjotusta harjoitusaineksesta, vaikkakin oppimistu- 


losten laatu voi vaihdella. 


Toinen kieliteknologian ja erityisesti konekaantimisen 
lahestymistapa on saantépohjaisten jarjestelmien raken- 
taminen. Kielitieteen, tietokonelingvistiikan ja tietojen- 
kasittelytieteen asiantuntijat koodaavat aluksi kieliopil- 
lisia analyyseja (kaantamisen saantdja) ja kokoavat sa- 
nastoja (leksikkoja). Jotkin johtavista saantdpohjaisis- 
ta konekaannésjarjestelmista ovat olleet tekeilla jo yli 
kaksikymmenta vuotta. Saantépohjaisten jarjestelmien 
suuri etu piilee siina, ett asiantuntijat voivat kontrol- 
loida kielen prosessointia tarkemmin. Nain heidan on 
mahdollista korjata ohjelman virheita systemaattisesti ja 
antaa yksityiskohtaista palautetta kayttajalle, erityises- 
ti tilanteessa jossa saantopohjaisia jarjestelmia kaytetaan 
kielen oppimisessa. Mutta ty6n kalleudesta johtuen on 
saantopohjaisia kieliteknologisia menetelmia tahan asti 
kehitetty vain isoille kielille. 

Koska tilastollisten ja saantépohjaisten jarjestelmien 


vahvuudet ja heikkoudet tapaavat olla toisiaan taydenta- 


via, tutkimushankkeissa keskitytaan molemmat mene- 
telmat yhdistaviin hybridimalleihin. Naiden osalta me- 
nestysta on toistaiseksi koettu enemman tutkimuslabo- 
ratoriossa kuin teollisten sovellusten maailmassa. 

Kuten olemme tassa osiossa nahneet, monet nykyisessa 
informaatioyhteiskunnassa hyédynnettavat sovellukset 
perustuvat kieliteknologisiin menetelmiin. Tama on eri- 
tyisen tyypillista Euroopan monikieliselle talousmark- 
kinoiden ja tiedonjaon alueelle. Vaikka kieliteknologian 
parissa on viime vuosina saavutettu merkittavia edisty- 
saskeleita, on kieliteknologisten jarjestelmien laadulli- 
sessa parantamisessa viela valtavasti ty6ta ja mahdolli- 
suuksia. Seuraavissa osioissa tarkastellaan suomen kie- 
len roolia eurooppalaisessa tietoyhteiskunnassa ja ar- 
vioidaan kieliteknologian tamanhetkista tilaa suomen 


kielen nak6kulmasta. 


SUOMEN KIEL] EUROOPAN 


TIETOYHTEISKUNNASSA 


3.1 PERUSTIETOA SUOMEN 
KIELEN ASEMASTA JA 
KAYTOSTA 


Suomen kielta puhuu aidinkielenaan Suomessa noin 4,8 
miljoonaa ihmista, ja se on noin 0,5 miljoonan suoma- 
laisen toinen kieli. Suomea puhutaan myoés Ruotsissa, 


Virossa, Venajalla, Yhdysvalloissa ja Australiassa. 


Suomen kieli on yksi Euroopan unionin 
virallisista kielista 


Suomen perustuslain ja kielilain mukaan suomi on ruot- 
sin ohella Suomen toinen kansalliskieli. Lisaksi suomi 
on Ruotsin virallinen vahemmistékieli (vuonna 2011 
lahinna Pohjois- ja Keski-Ruotsin kunnissa). Suomen 
kieli on yksi Euroopan unionin virallisista kielista. Suo- 
men ja ruotsin lisaksi Suomessa on vanhastaan kaytet- 
ty kolmea saamen kielta, pohjoissaamea, inarinsaamea 
ja koltansaamea, Suomen romanikielta, karjalan kielta 
ja kahta viittomakielta. Lahinna 1800-luvulta lahtien 
Suomessa on asunut myés venajan- ja tataarinkielisia. 
1970-luvun lopun jalkeen Suomeen on muuttanut vaes- 
toa muualta Euroopasta, Aasiasta ja Afrikasta, ja maa- 
hanmuuttajakielia on nykyisin runsaat 100 kielta. Suu- 
rimmat ryhmiat ovat venajan-, viron- ja somalinkielisia. 
Suomen kirjakielellé on suhteellisen lyhyt historia. Hen- 
gellisen kirjallisuuden ja kirkon kielena suomea on kay- 


tetty 1500-luvulta lahtien, lain kielena 1700-luvulta lah- 


tien. Hallinnon, opetuksen ja kirjallisuuden kielen oli 
aina 1800-luvulle ruotsi. Nykysuomelle luotiin perusta 
1800-luvulla, jolloin suomen kielesta tuli taysivaltainen 
kieli kaikessa yhteiskunnallisessa toiminnassa. 

Suomen murteet jakautuvat kahteen paaryhmaan, lansi- 
murteisiin ja itimurteisiin. Lansimurteita ovat lounais- 
murteet, lounaiset valimurteet, hamalaismurteet, Etela- 
Pohjanmaan murre, keski- ja pohjoispohjalaiset murteet 
ja Perapohjan murteet. Itamurteita ovat savolaismurteet 
ja kaakkoismurteet. Murteet eroavat toisistaan 4anne- ja 
muotopiirteiltaan (idassa meijan, manna, lannessa mei- 
ran, menna) ja osin sanastoltaan (idassa vasta, lannessa 
vibta). Murre-erot ovat edelleenkin selvia, ja eri alueiden 
puhujat erottuvat toisistaan varsinkin puheen prosodi- 
aan (mm. intonaatioon tai ajoitukseen) liittyvien piir- 
teiden perusteella. Erot ovat kuitenkin sellaisia, etta eri- 
murteiset ymmiartavat toisiaan hyvin. Kaupungistumi- 
nen ja yhteiskunnan muut muutokset ovat tasoittaneet 
murteita niin, etta kaikkein suppea-alaisimmat ja leimal- 


lisimmat variantit ovat havinneet. 


3.2 SUOMEN KIELEN 
ERITYISPIIRTEITA 


Suomen kieli kuuluu suomalais-ugrilaisten kielten ryh- 
maaan, ja se on yksi itamerensuomalaisista kielista. Muut 
itamerensuomalaiset kielet ovat karjala, lyydi, vepsa, in- 
keroinen, vatja, viro, liivi, vro ja seto. Naissa kielissa ei 


ole kieliopillista sukua eika artikkeleita. 


Suomen kielen leimallisimpia piirteita on, etta kirjoitus 
padosin vastaa aantdasua. Sanan paapaino on ensimmiai- 
sella tavulla. 

Suomen kielen ominaispiirteita on rikas taivutusjarjes- 
telma. Sanat jakautuvat kolmeen paaryhmaan: Nomi- 
neilla on sija- ja lukutaivutus, ja adjektiivit kongruoi- 
vat paasanansa kanssa (ésossa talossa, isoissa taloissa), ver- 
beilla on persoona-, tempus- ja modustaivutus (sanon, 
sanot, han sanoo, sanomme, sanotte, he sanovat; sanon, 
sanoin, olen sanonut, olin sanonut; sanon, sanoisin) jaad- 
positiot, adverbit ja partikkelit ovat paadosin taipumatto- 
mia. Sijoja on 15, joista akkusatiivi esiintyy vain persoo- 
napronomineissa ja kuka-pronominissa (minut, meidat, 


kenet). 


Suomen kielessd on rikas taivutusjarjestelma. 


Nomineilla voi olla jopa 2 000 ja verbeilla yli 12 000 
taivutusmuotoa. Erilaisten muotojen maara johtuu suo- 
men agglutinatiivisesta luonteesta: sanaan voidaan lii- 
mata suuri joukko taivutuspaatteita ja muita affikseja, 
esimerkiksi halu+tut+imm+ti+la+mmetko. 
Tarkeimmat suomen kielen sananmuodostuskeinot ovat 
johtaminen eli derivaatio ja yhdistaminen eli kompo- 
sitio. Sanakirjojen hakusanoista perussanoja on noin 
10-15 %, johdoksia noin 20-30 % ja yhdyssanoja noin 
60-70 %. 


= Johdoksia: kirja — kirjasto, kirjaamo, kirjallisuus, 
kirjoittaa, kirjanen, kirjallinen jne. 
= Yhdyssanoja: maahanmuutto, kansanelakelaitos, 


yleisurheilumaaottelu. 


Paatteiden kasautumisen lisaksi suomen kielelle ominai- 
sia piirteita ovat astevaihtelu ja vokaaliharmonia. Tai- 
vutuspaatteiden lisaksi sanoista tekee pitkia yhdyssano- 
jen kirjoittaminen yhdeksi sanaksi ilman valily6nteja tai 
yhdysmerkkeja. Yhdyssanoista voi lisaksi edelleen muo- 


dostaa uusia yhdyssanoja. 


Suomen erityispiirteet ovat kieliteknologian 
kannalta haasteellisia. 


Lauseenjasenten yleisin jarjestys on tyyppia SVX, Han 
osti polkupyéran. Suomen sanajarjestys vaihtelee kuiten- 
kin sen mukaan, mika on lauseen informaatiorakenne, 
eli sanajarjestyksella osoitetaan tutun ja uuden tiedon 


suhdetta: 


= Han osasi laksynsa. 


= Osasi han laksynsa. 


Syntaktisia rooleja merkitaan taivutuspaatteiden avulla. 
Siksi suomen sanajarjestys on suhteellisen vapaa, toisin 
sanoen tekija ja tekemisen kohde tunnistetaan ensisijai- 


sesti taivutuspaatteen perusteella: 


= Poika osti kirjan. 


= Kirjan poika osti. 


3.3 SUOMEN KIELEN 
KEHITYKSESTA 


Suomen kirjakielen historia on suhteellisen lyhyt. En- 
simmiaiset suomenkieliset tekstit olivat saksan kieles- 
ta uuden aikakauden alkupuolella suomeen kaannettyja 
uskonnollisia teksteja. Kirjoitusasu alkoi kuitenkin va- 
kiintua vasta 1800-luvulla. Toisen maailmansodan ai- 
koihin asti suomen kieleen lainattiin sanoja paaasiassa 
ruotsista, saksasta ja latinasta. Nykyisin sanastossamme 
on vain pieni suomalais-ugrilaista alkuperaa oleva osuus. 
Suomen kielessa on runsaasti lainasanoja eri ajoilta, balt- 
tilaisia, germaanisia, slaavilaisia ja skandinaavisia lai- 
nasanoja. Vuosisatojen ajan vahva lainanantajakieli oli 
ruotsi (pankki < bank, laki < lag, treenata < trina ). Ny- 
kyisin lainoja omaksutaan lahinna englannista (/iisaus < 


leasing, meili < mail), erikoiskieliin mys muualta (pitsa, 


karate). Tyypillista on, etta useimmat lainasanat mukau- 
tuvat varsin nopeasti suomen kielen rakenteeseen ja tai- 
vutusjarjestelmaan. Lainasanat ja omaperaiset sanat ela- 
vat usein rinnan: tulostin ~ printteri. 

Viime aikoina on ollut nahtavissa myés englannin kie- 
len toisenlainen vaikutus. Suomen kielen kayttoala on 
erailla elamanalueilla kapeutunut, eika suomea kayteta 
siina maarin kuin ennen. Tama ilmi6 nakyy selvimmin 
luonnontieteessa ja tekniikassa, mutta my6s muualla tie- 
deyhteisdssa. Tiedeyhteisé on myés entista tietoisempi 
siita, etta suomen kieli vaatii enemman huomiota kuin 
viime vuosikymmenina. 

Puhutun ja kirjoitetun kielen suhde on my6és muutok- 
sessa. Nykyisin julkaistaan paljon verkossa sellaista teks- 
tia, joka on oikeastaan puhetta. Siksi puhekielen ilmiot 
tulevat mukaan kirjoitettuun kieleen voimallisemmin 


kuin aiemmin. 


3.4 SUOMEN KIELEN HUOLTO 


Suomen kielen virallinen huolto on lain ja asetuksen 
mukaan Kotimaisten kielten keskuksen tehtava. Tut- 
kimuskeskus antaa suosituksia, opastaa, kouluttaa seka 
kartuttaa ja pitaa ylla ajantasaisia suomen kielen tie- 
tokantoja. Neuvonnalla on pitka perinne, ja toimin- 
ta tunnetaan hyvin kansalaisten keskuudessa. Suomalai- 
nen kielenhuolto on yha enemman tekstinhuoltoa, vaik- 
ka oikeinkirjoituksen ja taivutuksen yksityiskohdatkin 
ovat kylla kysymysten kohteena. 


Suomen kielen huolto kuuluu 
KOTUKSEN tehtaviin. 


Suomenkielisen termity6n keskeisia kehittajia on Sa- 
nastokeskus TSK, ja termityota tehdaan myds monis- 
sa tieteellisissa seuroissa. Vuoden 2011 alussa kaynnistyi 
Helsingin yliopistossa hanke Tieteen kansallinen termi- 


pankki, jonka tarkoituksena on edistaa suomenkielisten 


tieteellisten termien laatimista ja niiden saamista laajaan 
kaytt66n. 

2000-luvulla on yha enemman alettu kiinnittaa huo- 
miota myés viranomaiskielen laatuun ja ymmiarrettavyy- 
teen. Kotimaisten kielten keskus on tehnyt poliitikoille 
monia aloitteita virkakielen parantamiseksi ja tekee la- 


heista yhteisty6ta lainlaatijoiden kanssa. 


3.5 KIELI JA OPPIMINEN 


Noin 56000 lasta aloittaa vuosittain koulunkayntin- 
sé suomalaisessa peruskoulussa integroidussa yhdek- 
sanvuotisessa koulujarjestelmassé. Suomen kielella on 
tarkea asema kaikkien vuosikurssien opetussuunnitel- 
massa, jossa maaritellaan opetustuntien kokonaismaara. 
Opetuksen jakautumisesta eri vuosiluokkien osalle voi- 
daan sitten paattaa paikallisesti. Peruskoulun yhdeksan 
vuoden kuluessa oppilaat osallistuvat yhteensa 1554 ai- 


dinkielen ja kirjallisuuden oppitunnille. 


Suomi on menestynyt kaikilla 
PISA-arviointikierroksilla. 


Suomi on osallistunut 


kaikille neljalle PISA- 
arviointikierrokselle vuosina 2000, 2003, 2006 ja 2009. 
Testitulokset osoittavat, etta perusopetus on ollut suo- 
malainen menestystarina siitakin huolimatta, etta erot 
tyttdjen ja poikien suoritustasoissa ovat PISA-arvioihin 
osallistuneiden maiden suurimmat [8]. Vuonna 2009 
lukutaito oli arvioinnin keskeinen osa-alue, ja suoma- 
laisten oppilaiden suoritusten keskiarvo arvioitiin edel- 
listen PISA-kierrosten tavoin kolmanneksi parhaaksi. 
Lukutaito oli tuolloin arvioinnin keskeinen osa-alue, ja 
suomalaisten oppilaiden suoritusten keskiarvo arvioi- 
tiin edellisten PISA-kierrosten tavoin kolmanneksi par- 
haaksi [9]. Lukemista tuetaan myés muilla keinoin, esi- 


merkiksi tihea kirjastoverkosto ja suuri valikoima lehtia 


on tarjolla kaikille ikaluokille. 


Lukiossa opiskelijat osallistuvat kuudelle pakolliselle ai- 
dinkielen ja kirjallisuuden kurssille ja voivat lisaksi ha- 
lutessaan valita kolme ylimaardista syventavaa kurssia. 
Aidinkieli on pakollinen oppiaine ylioppilaskirjoituk- 
sissa, joiden jalkeen opiskelijat voivat hakeutua kor- 
kean asteen opintoihin muun muassa kaytant66n pai- 
nottuviin ammattikorkeakouluihin tai teoreettisempiin 
yliopisto-opintoihin. Vuosittain aloituspaikan ammat- 
tikorkeakoulusta saa noin 36000 opiskelijaa ja noin 
20 000 aloittaa yliopistoissa [10]. Kaikkien 26 ammatti- 
korkeakoulun ja 16 yliopiston opetusohjelmat sisaltavat 
pakollisia aidinkielen opintoja. 

Suomalaiset oppilaat opiskelevat didinkieltaan perus- 
koulun ylaasteella vihemman kuin OECD-maiden op- 
pilaat keskimaarin, eika aidinkielen tai kirjallisuuden 
ylimaaraisten kurssien valitseminen ole erityisen suo- 
sittua, vaikka oppiainetta pidetaan tarkedna. Raportin 
Suomen kielen tulevaisuus [11] tyoryhma ehdottaakin, 
etta kurssivalikoiman tulisi myés sisaltaa my6s muita 
kuin tekstin tuottamisen tai kirjallisuuteen painottuvia 
kursseja, kuten kielitieteellisia opintoja. 

Suomen kielta voi opiskella paaaineena kahdeksassa 
Suomen viidestatoista yliopistosta (Helsingin, Jyvasky- 
lan, Oulun, Tampereen, Turun, Vaasan ja Ita-Suomen 
yliopistoissa seka Abo Akademissa) ja Suomen kirjalli- 
suutta kuudessa ensimmiaisessa [12]. Yksittaisia kursseja 
on mahdollista opiskella monissa muissakin yliopistois- 
sa. Englannin merkitys opetuskielena on lisaantynyt sa- 
massa tahdissa kansainvalisen opiskelija-aineksen maa- 
ran kasvun kanssa, mutta suomi on viela paaasiallinen 


opetuskieli useimmissa tutkinto-ohjelmissa [13]. 


3.6 KANSAINVALISIA 
NAKOKULMIA 


Suomen kieli on 1900-luvun lopulle asti ollut kansain- 
valisissa yhteyksissa vastaanottava kieli. Maailman kau- 


nokirjallisuus ja tieteen saavutukset on saatu Suomeen 


kaannosten valityksella. My6s populaarikulttuurin, esi- 
merkiksi musiikin sanoitusten, kaantamisella on ollut 
vahva asema 1990-luvulle asti. Nain Suomeen on syn- 
tynyt vahva kaantaémisen perinne ja tottumus lukea ja 
kuulla kaannettya kielta. Tassa suhteessa on kuiten- 
kin viime vuosikymmenina tapahtunut muutosta, koska 
Internet-yhteydet ovat moninkertaistaneet muunkielis- 
ten tekstien ja muiden kulttuurin tuotteiden kaytén; ta- 


vallisin vieras kieli on silloin englanti. 


Suomen kieli on ollut kansainvdlisissa yhteyksissa 
vastaanottava kieli. 


Kaantaminen suomesta muihin kieliin on myés ol- 
lut tarkeda. Elinkeinoelaman ja tieteen kansainvalisis- 
sa kontakteissa taas suomi on ollut kaannosten lahto- 
kieli, silla yhteyksia ei yleensa ole voitu hoitaa suomen 
kielella. Suomen kielt voi tosin opiskella useissa maa- 
ilman yliopistoissa, mutta opiskelijamaarat ovat pienia 
ja useimmilla opiskelijoilla on enemmankin sukujuuriin 
tai henkilékohtaisiin suhteisiin kuin ammattiin liittyvat 
syyt opiskeluunsa. Kansainvalisten kontaktien jokapai- 
vaistyminen on muuttanut myés suomesta kaantamisen 
tilannetta, silla yha useammat suomalaiset kirjoittavat 
itse muilla kielilla, tavallisimmin englanniksi. Muutama 
suomalainen suuryritys on ottanut konsernikielekseen 
englannin. 

Euroopan unionin jasenyys muutti suomen kielen ase- 
maa merkittavasti, silla sen my6ta suomi on ensimmiis- 
ta kertaa jonkin kansainvalisen yhteison virallinen kie- 
li. Suomi ei kuitenkaan ole tyékieli, ja se merkitsee, etta 
osallistuminen tapahtuu myés EU:ssa tapahtuu kaanta- 
misen ja tulkkaamisen valityksella [11]. Tekstien maa- 
ra ja kaannettavat tekstilajit kuitenkin poikkeavat huo- 
mattavasti aikaisemmasta kaantamisesta. EU:n tuotta- 
mat tekstit kaannetaan tydkielista, useimmiten englan- 
nista, suomeksi. Tekstilajeista erityisasemassa on unio- 


nin lainsaadanté. Suomalaisten yhteydenotot EU:n toi- 


mielimiin kaannetdan puolestaan suomesta tyokielille. 
Suomesta kaannettavien tekstien maara on kuitenkin 


varsin pieni. 


Suomalaisten poliittisten edustajien ja virkamiesten ko- 
kouspuheenvuorot tulkataan suomesta tai suomeen. 
Tulkkausta on kuitenkin kaytetty vahemman kuin oli- 
si mahdollista. Tama koskee erityisesti suomalaisten vir- 
kamiesten osallistumista EU-kokouksiin. Unioni muut- 
ti 2004 tulkkausten kustannusten jakoa unionin ja ja- 
senmaiden kesken, minka jalkeen oli mahdollista ra- 
hoittaa muita menoja saastamalla tulkkauksesta. Suo- 
mi oli yksi niista maista, jotka tuolloin vahensivat 
tulkkauksen maaraa. Se, etta suomalaiset eivat kayta 
tulkkausta, saattaa vaikuttaa heidan kasitykseensa EU- 
kaannoksista. Suomalaiset lukevat kokouksissa kasitel- 
tavat tekstit yleensa englanniksi ja puhuvat kokouksis- 
sa myés itse englantia. Puolet suomalaisille virkamie- 
hille tehtyyn kyselyyn vastanneista sanoo, ettei ole saa- 
nut tulkkausta suomesta tai suomeen niin usein kuin 
olisi halunnut. Samojen virkamiesten mielesta suomen- 
kieliset EU-tekstit ovat tavallisesti vaikeaselkoisempia 
kuin samojen tekstien muunkieliset versiot tai vastaa- 
vat suomalaiset tekstit [14]. Myds saadésten kansalli- 
sessa taytantd6dnpanossa koetaan olevan kielellisia on- 
gelmia [15]. Yhteisty6ta EU-kaantajien ja virkamies- 
ten kesken onkin pyritty edistamaan perustamalla EU- 


saaddskaanndsverkosto. 


Tulkkauksen kaytté6n vaikuttaa todennakGisesti mys 
se, etta Suomessa arvostetaan hyvin suuresti vieraiden 
kielten taitoa. Tiedotusvalineet kiinnittavat huomiota 
poliitikkojen kielitaitoon, esimerkiksi ministerien ky- 
kyyn selvita puhetilanteista englanniksi. Suomen kielen 
kayttoa pidetaan helposti kyvyttomyytena kayttaa vie- 
rasta kielta sen sijaan, etta se nahtaisiin yhtena tapana 
osoittaa suomen kielen statusta unionin virallisena kie- 
lena. Myoskaan yhteys kielen kayt6n ja sen kehittymisen 
valilla ei tule aina niiden mieleen, jotka pragmaattisista 


syista valitsevat englannin: mité useammat asiantuntijat 


kayttavat kielta, sita parempia ja luontevampia ilmauk- 
sia siihen muodostuu — ja painvastoin. 

Kieliteknologiaa voitaisiin kayttaa nykyista suuremmas- 
sa maarin avuksi. Esimerkiksi laajapohjaisemmat ja no- 
peammin paivittyvat esimerkiksi hallinnon termien ja 
fraasien tietokannat olisivat varmasti avuksi seka kaan- 
tajille ja tulkeille etta virkamiehille, joskin niiden luotet- 
tavuus pitaisi my6s voida varmistaa. Konekaantaminen 
suomeen tai suomesta vaatisi lisaa panostusta, jotta siina 


paastaisiin tyontekoa hyédyttavalle laatutasolle. 


3.7 SUOMEN KIELI JA INTERNET 


Tietokonetta kayttavien suomalaisten talouksien luku- 
maara nousi tasaisesti vuosina 2000-2009 alun 47 pro- 
sentista perati 81 prosenttiin [16]. Langallisten laaja- 
kaistaliittymien osalta Suomi oli rankilistalla 31 maan 
joukossa sijalla 15 vuonna 2009, jolloin Suomessa oli yh- 
teensa 1 407 500 liittymaa [17] ja langattomien yhteyk- 
sien osalta Suomi oli sijalla 20 yhteensa 29 maasta noin 
1 182 300 liittymalla [18]. 

Tilastokeskuksen mukaan 86 prosenttia kansalaisis- 
ta kayttaa Internetia ja kayttajien joukossa ikaihmiset 
nayttavat ottavan nuorempiaan kiinni hammastyttavaa 
vauhtia; 64—74 -vuotiaiden osalta tilastot osoittavat 10 
prosentin vuosittaista kasvuvauhtia. Useimmat suoma- 
laiset tarvitsevat Internetia paivittain pankkiasioiden 
hoitamiseen (72 %), sosiaalisten yhteyksien yllapitoon 
sahképostin avulla (77 %) ja tiedon etsimiseen hy6- 
dykkeista ja tavaroista (74 %). Tavallista on myés ha- 
kea tietoa viranomaisista ja tarjolla olevista palveluista, 
ja yha useimmin ihmiset lahettavat erilaisten lomakkei- 
den avulla viranomaisille tarvittavia tai pyydettyja tieto- 
ja Internetin kautta. 74 % vaestésta katselee uutisia tai 
televisio-ohjelmia Internetissa [19]. 

Kansalliskirjasto dokumentoi suomalaisten verkkosi- 
vujen sisaltoa. Tama tehtava on lakisaateinen. Kirjas- 
ton eras tehtava on myds digitoida painotuotteita ja 


sen vuonna 2010 raportoima digitoitujen sivujen luku- 


maara oli 1064000. FinElib-kirjasto, jossa on tarjol- 
la artikkeleita ja muita lisensoituja aineistoja sihkdises- 
sa muodossa rekisterdi tuolloin 68 900 000 kayntia ja 
196 600 000 latausta kayttajan koneelle [20]. 
Sosiaalinen media valtaa nopeasti alaa Suomessa. Vuon- 
na 2010 perati 42 % suomalaisista on rekisterdity- 
nyt kayttajaksi ainakin yhteen yhteis6perustaiseen so- 
vellukseen (Facebook, Twitter jne.). Kaksi kolmasosaa 
heista vierailee ryhmissa paivittdin. Googlen Analytics- 
ohjelman mukaan Suomen suosituin kysely sen haku- 
koneessa vuoden 2004 jalkeen on ollut Facebook, You- 
Tube on hyvalla kakkossijalla ja sen jalkeen listalla seu- 
raavat Iltalehti ja Iltasanomat. Keskusteluryhmat ku- 
ten irc ja suomi24 ovat myés suosittuja ja niita hae- 
taan Googlen kautta tasaisesti. Alexan raportin mukaan 
Google on Suomen suosituin sivusto, mika osoittaa, et- 
ta muut hakukoneet eivat ole saaneet juurikaan jalansi- 
jaa Suomessa [21]. 

Viestintavirasto (Ficora) pitaa lukua Suomessa rekiste- 
roidyista .fi-verkkotunnuksista ja tietyn ajanjakson ti- 
lanteen kehittymista voi seurata Ficoran sivuilla. Esi- 
merkiksi kymmenisen vuotta sitten tammikuussa 2000 
rekisterditiin kuukauden kuluessa kaikkiaan 357 uutta 
fi-verkkotunnusta kun taas vuonna 2011 niita rekiste- 
rditiin 164 kappaletta yhden ainoan piivan (5.4.) aika- 
na. Rekisterdityja .fi-verkkotunnuksia on jo yli 270 000 
ja Googlen hakutulosten mukaan muita suomenkielisia 
verkkosivustoja on noin 110 000. Suomenkielisia verk- 
kosivustoja on nain lahes 300 000. 

Kieliteknologian kannalta Internetin kasvava merkitys 
on tarkeda kahdella tavalla. Valtava digitaalisessa muo- 
dossa oleva kieliaines on loppumaton kielen kayt6n tut- 
kimusaineisto ja tarjoaa mahdollisuuksia erityisesti ti- 
lastollisille lahestymistavoille. Toisaalta Internet tarjoaa 


myés laajan sovellusalucen kieliteknologialle. 


Suomessa oli lahes 1,5 miljoonaa 
lagjakaistaliittymaa vuonna 2009. 


Useimmin kayttamamme verkkosovellus on ilman muu- 
ta hakukone, joka edellyttaa kielen automaattista pro- 
sessointia monellakin tasolla, kuten taman raportin toi- 
sessa osiossa tarkemmin nahdaan. Hakukone kayttaa 
pitkalle vietya kielikohtaista kieliteknologiaa. Suomen 
kielessa tama tarkoittaa esimerkiksi sanojen kuusi (nu- 
mero) ja kuusi (havupuu) monimerkityksisyyden ratkai- 


semista. 


Suomi on muiden Euroopan valtioiden tavoin ilmaissut 
selkeasti poliittisen tavoitteensa varmistaa, etta sen kaik- 
kien kansalaisten yhtalaiset oikeudet toteutuvat. Sitra 
julkaisi jo vuonna 1998 raportin “Kohti esteetonta tie- 
toyhteiskuntaa’, jonka mukaan tietoyhteiskunnan tulee 
olla avoin kaikille kansalaisille, jotka haluavat etsia pal- 
veluita, tietoa ja viihdetta, toimia verkossa interaktii- 
visesti, osallistua yhteiskunnan paatéksentekomekanis- 
meihin myés mobiilisti, kehittaa itsedan ja tyoskennel- 
la kaikkialla ja kaikkina aikoina. Raportti korostaa tek- 
nologian mahdollisuuksia tarjota tukea erityisryhmille 
jokapiivaisista toimista selviytymiseen, mutta siina pai- 
notetaan myés, etta Suomessa tietotaito oli viela vuon- 
na 1997 pirstaleista, eika markkinoille vielakaan ilmesty 
riittavasti kaytannOn sovelluksia ja tuotteita vastaamaan 
kasvavaan kysyntaan. Kieliteknologian ansiosta kaytet- 
tavissa on arvokkaita apuvalineita, kuten puhesyntee- 
si ja Braillen naytto, joka on optinen lukija ja tekstis- 
ta puheeksi kaantava sovellus yhdessa. Sen avulla nak6- 
vammainen henkilo voi lukea tai kuunnella esimerkik- 
si sanomalehtia. Tarvitaan poliittista sitoutumista, yh- 
teisty6ta ja keskeisten toimijoiden vuorovaikutusta koh- 


ti rajoituksista vapaata yhteiskuntaa [22]. 


Julkisten virastojen tulee varmistaa, etta erityisryhmiin 
kuuluvat henkilét voivat kayttaa niiden verkkosivuja il- 
man rajoitteita. Kayttajaystavalliset kieliteknologiaso- 
vellukset tarjoavat ratkaisuksi esimerkiksi puhesynteesi- 


sovelluksen nakévammaisten kaytté6n. 


Internetin kayttajat ja sisallontuottajat voivat hyotya 


kieliteknologiasta myés vahemman ilmeisin tavoin, esi- 


merkiksi kun sita hyédynnetaan verkon sisallén au- 
tomaattisessa kaantamisessa kielesta toiseen. Ottaen 
huomioon sisaltdjen automaattisen kaantamisen tarjoa- 
mat kustannussaast6t, on kayttékelpoista kieliteknolo- 
giaa kehitetty ja aktiivisessa kaytossa hammiastyttavan 


vahan verrattuna oletettuun tarpeeseen. Suomen kie- 


len kompleksisuus saattaa olla eras taustatekija samoin 
kuin tyypillisissa sovelluksissa tarvittavien teknologioi- 
den maara. Seuraavassa osiossa esitellain katsaus kie- 
liteknologiaan ja sen keskeisiin sovellusalucisiin seka 
kieliteknologian nykytilanteen arviointi suomen kielen 


osalta. 


4 


KIELITEKNOLOGIAN SUOMEN KIELEN TUKI 


Kieliteknologiat ovat ohjelmistojarjestelmia, jotka on 
suunniteltu kasittelemaan ihmiskielia ja niita kutsu- 
taankin toisinaan myés “luonnollisten kielten kielitek- 
nologioiksi”. Puhe on vanhin ja ihmisen evoluution na- 
kokulmasta luonnollisin kielellisen viestinnan muoto. 
Se on luonteeltaan ajallista ja toimii parhaiten ihmisten 
valitonta keskinaista vuorovaikutusta edellyttavissa ti- 
lanteissa. Kompleksinen, sailytettavaksi tarkoitettu tie- 
to on lansimaisessa yhteiskunnassa padosin tallennettu 
kirjalliseen muotoon ja teksti onkin tavallisin tiedonva- 
lityksen kanava. Puhe- ja tekstiteknologiat kasittelevat 
tai tuottavat kielen eri muotoja, vaikka molemmissa tar- 
vitaan apuna sanakirjoja, kielioppisaantdja ja tietoa mer- 
kityksesta. 

Kuvassa | esitetaan kieliteknologian kentan osa-alueet. 
Yhdistamme kielellisen viestinnan muihin viestinnan 
ja informaation tuottamisen tapoihin, esimerkiksi puhe 
voi sisaltaa eleita ja kasvonilmeita. SahkGisessa muodos- 
sa olevat tekstit taas linkittyvat kuviin ja aaniin — elo- 
kuvien kieli voi esimerkiksi olla seka puhutussa etta kir- 
joitetussa muodossa. Puheteknologiat ja tekstiteknolo- 
giat limittyvat siten keskenaan ja ovat vuorovaikutuk- 
sessa muiden teknologioiden kanssa, jotka mahdollis- 
tavat multimodaalisen kommunikaation ja multimedia- 
tiedostojen tuottamisen. 

Seuraavassa tarkastellaan kieliteknologian tarkeimpia 
sovellusaloja, toisin sanoen kielentarkistusta, hakuko- 
netta, puhesovelluksia ja konekaantamista. Sovelluksia 


ja perusteknologioita ovat mm. 


# oikeinkirjoituksen tarkistus 


® kirjoittajan apuvalineet 


= tietokoneavusteinen kielenoppiminen 
= tiedonhaku 

= tiedon eristaminen 

# lyhennelman tuottaminen tekstista 

= kysymysvastausjarjestelma 

= puheentunnistus ja 


= puhesynteesi. 


Kieliteknologia on vakiintunut tutkimusala. Peruskir- 
jallisuutta ovat muun muassa seuraavat viitteet: [23, 24, 
25, 26, 27). 

Ennen sovellusalojen esittelya kuvataan tyypillisen kie- 


liteknologiajarjestelman arkkitehtuuri lyhyesti alla. 


A.| SOVELLUSARKKITEHTUURIT 


Kielenkasittelyn sovellusohjelmat koostuvat tavallises- 
ti useista komponenteista, jotka kuvastavat kielen eri 
ominaisuuksia. Kuva 2 esittaa tyypillisen tekstinkasit- 
telyn arkkitehtuurin yksinkertaistetussa muodossa. En- 
simmiaiset kolme moduulia kuvaavat tekstinsy6t6n ra- 


kennetta ja tarkoitusta: 


1. Esiprosessointi puhdistaa dataa, analysoi tai poistaa 


muotoiluja, paattelee lahtdkielen, jne. 


2. Kieliopillinen analyysi etsii lauseiden verbit, objek- 
tit, maareet ja muut lauseenjasenet ja paattelee vir- 
kerakenteen. 

3. Semanttinen analyysi suorittaa yksikasitteistamisen 
(laskee sanojen oikean merkityksen tietyssa kayt- 


téymparistéssa), ratkaisee viittaussuhteet (selvittaa 


Puheteknologiat 


Multimedia- ja 
multimodaalisuus- 
teknologiat 


Tekstiteknologiat 


amysteknologiat 


1: Kieliteknologia kontekstissa 


mm. virkkeen pronominien viittaukset substantii- 
veihin) ja korvaavat ilmaukset, seka tuottaa virkkeen 


merkitysrakenteen koneen luettavassa muodossa. 


Tekstin analyysin jalkeen tehtavakohtaiset moduulit 
paasevat suorittamaan muita operaatioita, kuten auto- 
maattista lyhennelmien tuottamista ja tietokantahaku- 
ja. Seuraavassa esitellaan ensin kieliteknologian keskei- 
set sovellusalat. Sen jalkeen kuvataan lyhyesti kielitek- 
nologian tutkimuksen ja opetuksen tilanne maassamme 
seka tarkeimmiat jo paattyneet ja kaynnissa olevat tutki- 
musohjelmat. Lopuksi kartoitetaan asiantuntijoiden ar- 
vioita keskeisista kieliteknologian ty6kaluista ja kieliai- 
neistoista useiden kriteerien valossa, joita ovat esimer- 
kiksi saatavuus, valmiusaste ja laatu. Yhteenveto arviois- 
ta suomen osalta esitetain taulukon muodossa (kuva 8). 
Lisaksi suomen kielen kieliteknologian tilanne suhteu- 


taan taman sarjan muihin kieliin. 


Tekstisydte 


4.2 KESKEISET SOVELLUSALAT 


Tassa osiossa keskitytaan tarkeimpiin kieliteknologisiin 
ty6kaluihin ja kieliaineistoihin ja luodaan katsaus kie- 
liteknologiaan Suomessa. Lihavoidut tyokalut ja aineis- 


tot loytyvat myés kuvasta 8 (s. 30) luvun lopussa. 


4.2.1 Kielentarkistus 


Useimmat tekstinkasittelyohjelmia kayttaneet tietavat, 
etta oikeinkirjoituksen tarkistin tuo esiin kirjoitusvir- 
heet niitaé korostamalla ja ehdottaa niihin korjauksia. 
Ensimmiaiset oikeinkirjoitusta tarkistavat ohjelmat ver- 
tasivat tekstista irrotettuja sanoja sanakirjaan. Tarkisti- 
met ovat niista ajoista kehittyneet, ne tunnistavat jo kie- 
likohtaisten kieliopillisen analyysin algoritmien avulla 
sanojen morfologiasta johtuvia virheita tekstissa (esim. 
monikon muodostus) ja syntaktisia ongelmia, kuten 


puuttuvan verbin tai kongruenssivirheen (me *kirjoit- 


y Oo 
EE a ee - ee 


2: Tyypillinen tekstinkdsittelyn arkkitehtuuri 


(eee) 


| “SE 
SD == == = 


3: Kielentarkistus (tilastollinen; saantépohjainen) 


taa kirjeen). Useimmat englannin oikeinkirjoituksen 
tarkistimet eivat kuitenkaan léyda virheita seuraavasta 


englanninkielisesta tekstista [28]: 


I have a spelling checker, 
It came with my PC. 
It plane lee marks four my revue 


Miss steaks aye can knot sea. 


Tamankaltaisten virheiden loytyminen edellyttaa yleen- 
s tietoa kayttoymparistésta, esimerkkina sen paattami- 


nen, tulisiko sanan alkaa isolla kirjaimella vai ei: 


Muista ottaa kaneli mukaan. 


Muista ottaa Kaneli mukaan. 


Vastaavissa tapauksissa tarvitaan joko kielikohtaisten 
kielioppien muotoilemista, toisin sanoen paljon kie- 
litieteellista osaamista ja kasity6ta, tai vaihtoehtoises- 
ti voidaan kayttaa apuna tilastollisia kielimalleja laske- 
maan, milla todennakoisyydella tietyn sanan voidaan 
odottaa esiintyvan juuri tietyssa ymparistéssa sita edel- 
tavien tai seuraavien sanojen yhteydessa. Kaneli esi- 
merkiksi esiintyy paljon todennakéisemmin ainesana- 
na kuin erisnimeni. Tilastollinen kielimalli voidaan joh- 
taa aineistosta automaattisesti, kunhan kaytettavissa on 
tarpecksi suuri maara (virheet6nta) kieliainesta, eli teh- 
tavaan soveltuva tekstikorpus. Tahan asti tilastollisia 
malleja on enimmakseen kehitetty ja arvioitu englan- 


ninkielista kieliainesta varten. Mallit eivat kuitenkaan 


ole siirrettavissa suoraan suomen kielen kasittelyyn, joh- 
tuen mm. suomen suhteellisen vapaasta sanajarjestyk- 
sesta, yhdyssanojen muodostuksesta ja sanojen taipumi- 
sesta. 

Kielentarkistustoiminto ei sisally ainoastaan tekstinka- 
sittelyohjelmiin, vaan se loytyy myés kirjoittajan apuva- 
lineista, vaikkapa ohjelmista, joiden avulla kirjoitetaan 
kasikirjoja ja muuta dokumentaatiota noudattaen tietyn 
erikoisalan, esimerkiksi terveydenhuollon tai rakennus- 
tekniikan, usein monimutkaisia standardeja. Lahdetty- 
aan kansainvilisille markkinoille kaantamisen ja lokali- 
soinnin avulla monet yritykset ovat alkaneet panostaa 
entista enemman teknisen dokumentoinnin laatuun. 
Ne haluavat valttya asiakkaiden valituksilta ja vahingon- 
korvausvaatimuksilta, jotka ovat usein tulosta huonosti 
ymmiarretyista ohjeista johtuvasta tuotteen virheellises- 
ta kaytosta. Luonnollisen kielen kasittelyn edistyminen 
on tuottanut parempia kirjoittajan apuvalineita, jotka 
auttavat teknisen dokumentaation kirjoittajaa valitse- 
maan alan kaytanteita ja yrityksen terminologisia valin- 


toja noudattavia termeja ja lauserakenteita. 


Kielentarkistus on myés kirjoittajan apuvaline. 


Suomessa on historiallisista syista kehittynyt useita pie- 
nia kieliteknologiayrityksia ja palveluntarjoajia, joiden 
tuotteet perustuvat moniin kielimalleihin. Suomen kieli 
on haastava kieli mallinnettavaksi, tai kuten Antti Arp- 


pe asian vuonna 2002 ilmaisi: “Kun esimerkiksi englan- 


tia varten pystyy kehittamaan yksinkertaisen kielenka- 
sittelyohjelmiston kuten oikolukijan kaytannéssa listaa- 
malla ja kompressoimalla yleisimmat sata tuhatta sanaa, 
suomen kohdalla pitaisi samaa tekniikkaa noudattaen 
listata jos ei satoja niin vahintaéain kymmenia miljoo- 
nia eri sanamuotoja, jotta vastaava oikolukija olisi yhta 
kattava.” [29] 1980-luvun loppupuolelta alkaen on seu- 
raavilla kieliteknologiayrityksilla ollut tuotevalikoimis- 
saan kielentarkistusohjelmia: nykyisin sanakirjoihin eri- 
koistunut Kielikone, kielen analyysin ty6kaluija tarjoava 
Connexor, itseorganisoituvia karttoja (SOM) hyédyn- 
tava Gurusoft ja Lingsoft, joka tarjoaa laajan valikoiman 
tuotteita suomen kielelle. 

Kielentarkistus on tarkeaa oikeinkirjoituksen tarkistin- 
ten ja kirjoittajan apuvalineiden lisaksi tietokoneavus- 
teisessa kielenoppimisessa. Kielentarkistuksen sovelluk- 
set voivat myés automaattisesti korjata hakukoneiden 
hakulausekkeita, jolloin esimerkiksi Google ehdottaa 
sopivia hakutuloksia myés sellaisten sanojen perusteel- 


la, joissa on jokin kirjoitusvirhe. 


4.2.2. Hakukoneet 


Tiedon hakeminen verkosta, suljetusta intranetista tai 
sahkGisista kirjastoista on todennakdisesti eniten kay- 
tetty, mutta viela kehitysasteella oleva kieliteknologi- 
nen sovellus. Googlen hakukone, joka aloitti toimintan- 
sa vuonna 1998 kasittelee tanaan noin 80% kaikista ha- 
kukyselyista [30]. Suomen puhekieleen on ilmestynyt 
uusi verbi guuglata, jolle ei viela ole vakiintunutta kirjoi- 
tusasua. Google korjaa nykyisin kirjoitusvirheen sisalta- 
van hakusanan kirjoitusasun automaattisesti, ja kyselyis- 
sa hyédynnetaan merkityksen analysointia. Osumatark- 
kuus paranee, kun termien merkitys maaritellaan niiden 
kayttéymparist6n perusteella [31]. Googlen menestys- 
tarina osoittaa, etta kun kaytettavissa on suuria maa- 
ria materiaalia ja tehokkaat indeksointitekniikat, tuot- 
taa tilastolliseen malliin perustuva menetelma tyydytta- 


via tuloksia. 


Kehittyneempia tiedonhakutarpeita varten on syyta yh- 
distéa syvempi kielitieteellinen tietamys semanttiseen 
analyysiin. Kokeilut, joissa on hyédynnetty leksikaa- 
lisia resursseja kuten koneluettavat kasitesanakirjat tai 
ontologiapohjaiset kieliresurssit (esim. FinnWordNet) 
ovat osoittaneet edistymista osumatarkkuudessa, kun 
niiden avulla on voitu hyédyntaa alkuperaisten hakusa- 
nojen ja termien synonyymeja, kuten atomienergia, ato- 
mivoima ja ydinenergia ja my6s vahemmian toisiinsa si- 


doksissa olevia termeja voidaan hyédyntaa. 


Tulevaisuuden hakukoneet perustuvat 
kehittyneempdan kieliteknologiaan. 


Seuraavan hakukoneiden sukupolven on syyta perus- 
tua paljon kehittyneempaan kieliteknologiaan, kun ta- 
voitteena on pystya vastaamaan myés hakukyselyyn, jo- 
ka muodostuu avainsanojen sijaan kysymyksesta. Loy- 
taakseen vastauksen kyselyyn “Anna lista kaikista yri- 
tyksista, jotka jokin toinen yritys on ostanut viimei- 
sen viiden vuoden aikana’, kieliteknologisen jarjestel- 
man tulee analysoida virkkeen rakenne ja merkitys se- 
ka tuottaa indeksi oikeiden dokumenttien léytamisek- 
si riittavan nopeasti. Hyvan hakutuloksen tuottaminen 
edellyttaa virkkeen kieliopillisen rakenteen analysointia, 
jotta jarjestelma osaa paatella, etta hakija tarvitsee tie- 
toa ostetuista eika muita ostaneista yrityksista. Ilmai- 
sun viimeisen viiden vuoden tulkintaa varten jarjestel- 
man tulee pystya paattelemaan, mitka vuodet ovat kyse- 
lyn ajankohtaan nahden relevantteja. Ja lopulta on ver- 
rattava hakukyselya valtavaan maaraan rakenteistama- 
tonta tietoainesta, jotta loytyy juuri hakijan tarvitsema 
palanen tietoa. Tiedonhakuprosessi sisaltaa siten rele- 
vanttien dokumenttien loytamisen ja jarjestamisen pa- 
remmuusjarjestykseen. Tuottaakseen listauksen yrityk- 
sista jarjestelman taytyy my6s tunnistaa tietty merkki- 
jono tai sanajono dokumentissa yrityksen nimeksi. Tata 


kutsutaan nimella “named entity recognition’. 
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A: Haku verkossa 


Vaativampi haaste on tietynkielisen kyselyn yhdistami- 
nen muunkielisiin dokumentteihin. Kieltenvalinen tie- 
donhaku sisaltaa kyselyn automaattisen kaantamisen 
kaikille mahdollisille lahtokielille ja sen jalkeen tulosten 


kaantamisen takaisin kohdekielelle. 


Tietoa varastoidaan nykyisin entistaé enemman muu- 
toinkin kuin tekstina. Tarvitaan multimediatiedonha- 
kua, kun etsitaan kuvia, aanitiedostoja ja videomateriaa- 
lia. Aani- ja videotiedostojen kasittelyssa puheentunnis- 
tuksen moduulin tulee muuntaa puheaines tekstiksi (tai 
foneettiseen muotoon), jotta sité voidaan verrata kayt- 
tajan kyselyyn. 

Suomessa on vain muutama aktiivisesti hakuteknolo- 
gioita kehittava ja soveltava pienyritys. Gurusoft on 
erikoistunut kielesta riippumattomiin itseorganisoitu- 
viin karttoihin (SOM) ja soveltaa niihin perustu- 
via menetelmia tiedonhaun tehtaviin, mutta yrityksen 
Docunaut-tuote on kehitetty asiakkaiden sisaisten int- 
ranettien kyselyihin maailmanlaajuisen Internetin si- 
jaan. Raportin kirjoittamisen aikaan ei Suomessa ole vi- 


reilla laajamittaisia hakukoneteknologiaprojekteja. 


4.2.3 Puheteknologia 


Puheeseen perustuva vuorovaikutus kuuluu sovellus- 
aloihin, jotka tarvitsevat puheteknologiaa eli teknolo- 
gioita, joilla kasitellaan puhuttua kielta. Puheeseen poh- 
jautuva koneen kaytt6 ei tapahdu graafisella naytélla, 


nappaimistolla tai hiirella vaan puhutulla kielella. 


Puheteknologioita tarvitaan, kun halutaan 
kommunikoida koneen kanssa puheen avulla. 


Puhekayttéliittymia (Voice User Interface, VUI) kay- 
tetaankin nykyaan usein osittain tai taysin automati- 
soiduissa puhelinpalveluissa. Erityisen paljon niita hy6- 
dyntavia aloja ovat rahoitus, hankinta-ala, julkinen lii- 
kenne ja tietoliikenne. Muita puhekayttdliittymien so- 
velluskohteita ovat mm. ajoneuvojen navigointilaitteis- 
tot ja puhe graafisen naytén tai kosketusnaytén vaih- 
toehtona alypuhelimen ohjaamisessa. 

Puhepohjaiseen vuorovaikutukseen kuuluu nelja aluet- 


ta: 


2] 


1. Automaattinen puheentunnistus maarittelee, mit- 
ka sanat todella sisaltyvat tiettyyn aanten sekvenssiin 


kayttajan tuottamassa puheessa. 


2. Luonnollisen kielen ymmartaminen kasittaa puhee- 
seen sisaltyvan ilmaisun syntaktisen rakenteen ana- 
lyysin ja sen tulkinnan kyseisen jarjestelman mukai- 
sesti. 

3. Dialoginhallinta paattelee, mihin toimenpiteisiin 
on syyta ryhtya ottaen huomioon kayttajan antama 
syOte ja jarjestelman toimintaperiaate. 

4. Puhesynteesi muuttaa jarjestelman vastauksen aa- 


neksi kayttajaa varten. 


Eras puheteknologiajarjestelmien haasteista on tunnis- 
taa kayttajan puheesta sanat oikein. Tama merkitsee 
kaytannéssa kayttajin puheilmausten rajoittamista si- 
ten, etta mahdollinen syéte saa sisaltaa vain rajoitetun 
asiasanalistan jasenia. Toinen vaihtoehto on luoda kasi- 
tyona kielimalleja, jotka kattavat suuren maaran luon- 
nollisen kielenkayton kokonaisia ilmauksia. Koneoppi- 
misen teknologioiden avulla voidaan kielimallit mys 
tuottaa automaattisesti laajoista puhekorpuksista, jot- 
ka ovat puhutun kielen kokoelmia puheaanitiedostoi- 
neen ja tekstin transkriptioineen. Ilmausten rajoittami- 
nen pakottaa kuitenkin ihmiset kayttamaan puhekayt- 
toliittymaa ennalta maaritellylla tavalla, mika heiken- 
taa jarjestelman kaytettavyytta. Toisaalta kattavien kie- 
limallien luominen, hienosaaté ja yllapito nostavat kus- 
tannuksia. Puhekayttdéliittymat, jotka hyédyntavat kie- 
limalleja ja heti alussa antavat kayttajan kertoa asian- 
sa joustavammin — ja aloittavat vaikkapa tervehtimalla 
asiakasta ilmauksella Miten voin auttaa? — ovat usein 
pitkalle automatisoituja ja siten kayttajien helpommin 
hyvaksyttavissa ihmisen korvaajaksi. 

Yritykset tapaavat kayttaa ammattipuhujien etukateen 
aanittamaa puhemateriaalia suoraan puhekayttdliitty- 
man tuottamiksi ilmauksiksi. Kun ilmaus on pysyvaa 
laatua, eika sen sanamuoto riipu kayttoymparistésta 


tai kayttajakohtaisesta tiedosta, voi menetelma tuottaa 


miellyttavan kayttajakokemuksen. Mutta tulos voi tun- 
tua epaluonnolliselta, koska aanitiedostojen palaset on 
menetelmissa yksinkertaisesti liimattu yhteen. Uuden 
teknologian puhesynteesijarjestelmat ovat tassa suhtees- 
sa edeltajiaan parempia, kun luonnollisuus on otettu sel- 


keammin tavoitteeksi. 


Puheteknologiasovellusten kayttéliittymien teknologi- 
set komponentit ovat olleet laajan standardointity6n 
kohteena kuluneen vuosikymmenen aikana. Puheen- 
tunnistuksen ja puhesynteesin markkinat ovat samalla 
keskittyneet. Viisi alan globaalia toimijaa ovat hallin- 
neet G20-valtioiden (taloudellisesti kestavalla pohjalla 
olevien valtioiden) kansallisia markkinoita, joista yhdys- 
valtalainen Nuance ja italialainen Loquendo ovat olleet 
vahvoja Euroopan markkinoilla. Vuonna 2011 Nuance 
ilmoitti ostaneensa Loquendon, mika osoittaa markki- 


noiden keskittyvan edelleen. 


Puheteknologian tutkimusta on tehty Suomessa 1960- 
luvulta asti ja tuloksena on ollut kansainvilisesti- 
kin vaikuttavia tuotteita, esimerkiksi kannettava Syn- 
te 2 -puhesynteesi, joka kehitettiin silloisen Teknil- 
lisen korkeakoulun (nykyinen Aalto-yliopisto) akus- 
tiikan ja aanenkasittelytekniikan laboratoriossa 1970- 
luvulla. Toinen esimerkki on 1980-luvulla kehitetty fo- 
neettinen kirjoituskone. Joitakin yksittaisia puhetek- 
nologisia tuotteita on myés tuotu markkinoille 1990- 
luvun alun jalkeen, mutta niiden asiakaskunta on rajoit- 
tunut lahinna erityisryhmiin. Seka julkisella etta yksityi- 
sella sektorilla on panostettu merkittaviin tutkimus- ja 
kehityshankkeisiin, jotka alkavat tuottaa tulosta — nii- 
den ansiosta on suomen kielelle nyt tarjolla useita seka 
puheentunnistuksen etta puhesynteesin teknologioita 
hyédyntavia tuotteita, jotka yltavat samalle tasolle muil- 
le kielille tehtyjen tuotteiden kanssa. Useimmat suoma- 
laiset kansainvalisella tasolla toimivat puheteknologiay- 
ritykset tarjoavat suomen kielelle seka puhesynteesia et- 
ta automaattista puheentunnistusta. Kaksi suomalaista 


yritysta, Bitlips Oy ja Timehouse Oy, tarjoavat suomen- 
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5: Puheeseen pohjautuva dialogijarjestelma 


kielista puhesynteesia. Lingsoft Oy seka Suomen Pu- 
heentunnistus Oy ovat molemmat tuotteistaneet suo- 
men kielen automaattisen puheentunnistuksen jarjes- 
telmia ja ne tuottavat puhekayttdliittymia useille suo- 
malaisille yrityksille. 

Suomessa on kaynnissa useita mittavia tutkimushank- 
keita seka puhesynteesin etta automaattisen puheen- 
tunnistuksen puolella. Paaosa tutkimuksesta tehdaan 
Aalto-yliopistossa, Helsingin yliopistossa ja Tampereen 
teknillisessa korkeakoulussa. Isoin teollinen toimija pu- 
heentutkimuksen alueella Suomessa on perinteisesti ol- 
lut Nokia. Dialoginhallintaan liittyvan teknologian ja 
osaamisen saralla ei Suomessa ole pienyrityksia, jotka 
tarjoaisivat alan tuotteita. Puheen vuorovaikutusteknii- 


koiden alalla ei viela ole aitoa markkinatilannetta. 


Tulevaisuudessa on odotettavissa merkittavia muutok- 
sia alypuhelinten yleistyessa. Ne tarjoavat uuden alus- 
tan asiakassuhteiden yllapitoon perinteisten viestimien, 
Internetin ja sahképostin lisiksi, myds vuorovaikut- 
teisten sovellusten kysynta kasvaa. Pitkalla tahtaimel- 
la puhelimeen sisaltyvia puhekayttdéliittymia tulee ole- 
maan tarjolla vihemman ja puheen rooli kayttajaysta- 
vallisena alypuhelimen komentokielena tulee olemaan 
entista paljon keskeisemmissi roolissa. Kehitysta tulee 
erityisesti vauhdittamaan puhujasta riippumattomien 
puheentunnistusmenetelmien tarkkuuden asteittainen 
paraneminen. Sanelujarjestelmia on jo tarjolla alypuhe- 


linten kayttajille keskitettyina palveluina. 


4.2.4 Konekddntaminen 


Idea tietokoneiden hyédyntamisesta luonnollisten kiel- 
ten kaantamisessa syntyi jo vuonna 1946, ja ala sai mer- 
kittavaa tutkimusrahoitusta heti 1950-luvulla ja uudel- 
leen 1980-luvulla. Siita huolimatta ei konekaantamisen 
(MT) alalla viela tahan paivain mennessa ole pystytty 
saavuttamaan alkuperaista tavoitetta kaikkien kaytetta- 
vissa olevasta automaattisesta kaantimesta. 

Konekaantamisen peruslahtékohta on korvata yhdel- 
1a luonnollisella kielella kirjoitetun tekstin sanat auto- 
maattisesti toisen kielen vastineilla. Lahestymistapa voi 
olla hyédyllinen tapauksessa, jossa tekstit kasittelevat 
sellaisia aihealueita, joiden kieli on hyvin rajoittunutta 
ja muodollista, kuten esimerkiksi saaraportteja. Mutta 
kun tavoitteena on tuottaa laadukas kaann6s vahemman 
standardoidusta aineksesta, on siirryttava yhdistamaan 
isompia tekstin yksikoita niiden lahimpiin kohdekielen 
vastineisiin. Suurin ongelma syntyy luonnollisen kielen 
monimerkityksisyydesta. Se on haasteellista monella ta- 
solla, kuten sanaston yksikdiden merkitysten disambi- 
guointi eli yksikasitteistaminen (jaguaari on seka auto- 
merkki etta kissaelain) tai taivutuspaatteen tulkinta syn- 


taksin rasolla, esimerkiksi: 


Poliisi tarkkaili miesta méella. 


Poliisi tarkkaili miesta kitkarilla. 


Konekaanndésjarjestelmia voidaan rakentaa myés hy6- 


dyntamalla kielitieteellisia saantoja. Kun kaantaminen 
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tapahtuu sukukielten valilla, voi suoran korvaamisen 
menetelmi olla jarkeva. Mutta saant6pohjaiset (tai kie- 
litieteelliseen tietoon pohjautuvat) jarjestelmat usein 
analysoivat lahtétekstin ja luovat symbolisen represen- 
taation valivaiheen, josta kohdekielinen teksti voidaan 
sitten generoida. Naiden menetelmien toimivuus ja lop- 
putuloksen laatu ovat taysin riippuvaisia siita, onko saa- 
tavilla laajoja sanastoja, joihin morfologista, syntaktista 
ja semanttista tietoa on koodattu ja onko asiansa osaa- 
vien lingvistien koostamia laajoja kieliopillisten saanto- 
jen kokoelmia kaytettavissa. Kokonaisuudessaan proses- 


si on pitka ja tulee siksi usein kalliiksi. 


Konekddntdmisessd korvataan lahtdkielen 
sanat automaattisesti kohdekielen sanoilla. 


1980-luvun loppupuolella, kun tietokoneiden tehok- 
kuus kasvoi ja tekniikka halpeni, kiinnostus konekaan- 
tamisen tilastollisia malleja kohtaan herisi jalleen. Ti- 
lastolliset mallit ovat kehittyneet kaksikielisten teksti- 
korpusten analysoinnin pohjalta, esimerkkina Europarl- 
rinnakkaiskorpus, joka sisaltaa Euroopan parlamentin 
puheenvuorot 21 eurooppalaisella kielella. Kun aineis- 
toa on tarpeeksi, tilastollinen konekaannin saavuttaa 
riittavan tarkkuuden tuottamalla vieraan kielen mer- 
kityksen likiarvoja. Se tuottaa todennakdisista sanois- 
ta muodostuvia jatkumoita tekstien rinnakkaisista ver- 
sioista. Mutta toisin kuin tietamykseen perustuvat jar- 
jestelmat, tilastolliset (tai aineistopohjaiset) konekaan- 
timet tuottavat usein kieliopillisesti heikkoa tulosta. Ai- 
neistopohjaisen konekaantamisen hyéty syntyy siita, et- 
ta se edellyttéa vahemman inhimillista tyota ja kattaa 
myos kielikohtaisia ominaispiirteita (esim. idiomaatti- 
set ilmaukset), jotka saattava jaada ilman huomiota tie- 
tamyspohjaisissa jarjestelmissa. 

Tietamyspohjaisen ja aineistopohjaisen konekaantami- 
sen vahvuudet ja heikkoudet tapaavat olla toisiaan tay- 


dentavia, joten nykyisin tutkijat keskittyvat molemmat 


menetelmat yhdistaviin hybridiratkaisuihin. On myés 
kokeiltu lahestymistapaa, jossa kaytetaan seka tieta- 
myspohjaisia etta aineistopohjaisia jarjestelmia yhdes- 
sa, jolloin tarvitaan erillinen valintaosio tekemaan valin- 
ta vaihtoehtoisisten vastineiden valilla. Tulokset pidem- 
pien kuin noin 12 sanan virkkeiden osalta ovat usein va- 
hemman hyvia. Paremmaksi ratkaisuksi on osoittautu- 
nut parhaiden palojen yhdistaminen useammasta vasti- 
neeksi ehdotetusta virkkesta. Tallin prosessi voi tosin 
olla suhteellisen monimutkainen, kun ei aina ole ilmeis- 
ta, mitka palaset monista vaihtoehdoista parhaiten vas- 
taavat toisiaan, ja palaset tulisi lisaksi pystya kohdista- 


maan toisiinsa luotettavasti. 


Konekdantdminen on erityisen 
haastavaa suomen kielen osalta. 


Suomi ei ehtinyt mukaan ensimmiaisen sukupolven 
konekaannoshankkeisiin, mutta tuli mukaan toises- 
sa aallossa saantépohjaisen konekaantimen kehittami- 
seen 1980-luvulla. Pitkan tahtaimen kansallisesti rahoi- 
tettu tutkimus- ja kehityshanke Kielikone kehitti en- 
sin tarpeelliset suomen kielen analyysityékalut ja kayt- 
ti sitten niita rakentaakseen saant6pohjaisen suomi- 
englanti konekaannéssovelluksen 1990-luvulla, josta 
sittemmin syntyi kaupallinen tuote. IBM Finland tut- 
ki omaan englannin jasentimeensa perustuvaa englanti- 
suomi suuntaa 90-luvun vaihteessa, mutta projekti ei 
paassyt tuotantoon asti. Nykyisin Sunda, joka kayttaa 
Kielikoneen teknologian pohjalta kehitettya uudempaa 
saantdpohjaista jarjestelmaa, myy suhteellisen hyvalaa- 
tuista englanti-suomi konekaannéstuotetta. Google ja 
Microsoft tarjoavat suomen tilastollista konekaannds- 
ta, mutta laatu jaa heikoksi johtuen suomen morfolo- 
gian kompleksisuudesta seka suhteellisen vapaasta sana- 
jarjestyksesta, joka kuten ylla on todettu, on haaste ny- 
kyisille tilastollisille konekaanndsjarjestelmille. Aalto- 


yliopistossa toimiva tutkimusryhma tydskentelee suo- 
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men kielen morfologian ja tilastollisen konekaannéksen 
kysymysten parissa. 

Konekaannésjarjestelmien laadun parantamisessa on 
jatkossa paljon potentiaalia. Haasteena ovat kieliresurs- 
sien sovittaminen tietyn alan tarpeisiin ja toisaalta tek- 
nologian integrointi tyonkulun prosesseihin, joihin ter- 
mitietokannat ja kaanndésmuistit jo sisaltyvat. Lisaksi 
useimmat nykyisista jarjestelmista ovat on tehty englan- 
nin kaantamista varten, ja tukea léytyy vain harvalle 
kielelle suomesta tai suomeen kaannettaessa. Kaannok- 
sen ty6nkulku monimutkaistuu, jos konekaannésoh- 
jelman kayttaja joutuu opettelemaan erilaisia sanaston 


koodaustyékaluja eri jarjestelmia varten. 


Konekaannésjarjestelmien arviointihankkeiden tulok- 
set auttavat niiden laadun vertailussa, ne selventavat 
eri lahestymistapoja ja tarjoavat tietoa siita, millaises- 
sa tilanteessa eri kieliparit ovat. Kuva 7 sisaltaa Euro- 
matrix+ -projektin aikana kootut tuolloin 22 virallisen 
EU-kielen tulokset kielipareittain (iiri ei ollut vertailus- 
sa mukana). Tulokset on arvioitu BLEU-pistein, joissa 
paremman kaannéksen pistemaara on aina korkeampi 
[32]. Ihminen saisi kaannéstehtavasta keskimaarin 80 


pistetta. 


Parhaimmat pisteet (taulukossa vihrealla ja sinisella va- 
rilla) saivat kielet, joihin on panostettu perustamalla yh- 
teistyOprojekteja ja joiden tutkijoilla on kaytéssaan usei- 
ta rinnakkaiskorpuksia (esimerkkeina englanti, ranska, 


hollanti, espanja ja saksa). Taulukossa on punaisella mer- 


kitty huonoimmat tulokset. Naiden kielten kehittami- 
seen ei joko ole panostettu hankerahoitusta tai ne ovat 
rakenteellisesti erityisen paljon muista tutkituista kielis- 


ta poikkeavia (esimerkkeina unkari, malta ja suomi). 


4.3 MUUT SOVELLUSALAT 


Kieliteknologiajarjestelmat sisaltavat usein paljon eri- 
laisia piilossa olevia sovelluksia, joita jarjestelman kayt- 
taja ei havaitse, koska ne toimivat piilossa jarjestelman 
sisuksissa tuottaen kuitenkin kaycttajalle tarkeita palve- 
luja. Sovellusten kehitys edellyttaa monitieteista tutki- 
musta, ja monista sovelluksista onkin vahitellen kehit- 
tynyt oma erillinen tutkimushaaransa tietokonelingvis- 


tiikan kattokasitteen alle. 


Kieliteknologisten jarjestelmien osat 
eivat aina nay kayttdjalle. 


Esimerkiksi kysymysvastausjarjestelmien kehittaminen 
on aktiivinen tutkimusala, jonka puitteissa on raken- 
nettu annotoituja kieliaineistoja ja jarjestetty tieteelli- 
sia kilpailuja. Kysymysvastausjarjestelma on monimut- 
kaisempi kuin asiasanapohjainen hakukysely, joissa ha- 
kukone tuottaa kysymykseen vastaukseksi listan valikoi- 
man mahdollisesti hakua vastaavista kokonaisista doku- 


menteista. Sen kayttaja voi tehda konkreettisen kysy- 
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7. Konekaannés 22 EU-kielen valilla — Machine translation between 22 EU-languages [32] 


myksen ja saada siihen jarjestelmalta suoran ja yhden ai- 


noan vastauksen. Esimerkiksi: 


Kysymys: Miten vanha Neil Armstrong oli astuessaan 


kuun pinnalle? 


Vastaus: 38. 


Vaikka kysymysvastausjarjestelmat ovat selvasti osa ha- 
kukyselyjen ydinta, se kattaa monenlaisia tutkimusky- 
symyksia, kuten esimerkiksi mité eri kysymystyyppeja 
kielissa on, ja miten niita pitaisi kasitella; miten tietyn 
kokoelman dokumentteja voidaan analysoida ja verra- 
ta toisiinsa, jotta saadaan selville, sisaltavatk6 ne toisiin- 
sa nahden ristiriitaisia vastauksia kysymykseen; ja miten 
hyddyntamailla tietoa aihealueesta tietty tiedon palanen 
(vastaus) voidaan léytaa dokumentista luotettavalla ta- 
valla. 

Tutkimuskohteena kysymykset liittyvat myds tiedon 


eristamiseen (IE), joka saavutti tutkimusalana suosio- 


ta, kun tietokonelingvistiikan painopiste siirtyi tilastol- 
listen menetelmien tutkimukseen 1990-luvun alkupuo- 
lella. Tiedon eristamisen menetelmien tavoitteena on 
tunnistaa yksildityja tiedonpalasia rajatuista dokument- 
tityypeista, kuten keskeisia toimijoita yritysvaltauksissa 
sen perusteella, miten kaupoista on sanomalehtiartik- 
keleissa raportoitu. Raportit terrorismista muodostavat 
toisen tavallisen tutkimuskohteen, jolloin tehtavana on 
yhdistaa aito teksti prototyyppiin, jossa tapahtuman te- 
kija, kohde, ajankohta, sijainti ja seuraamukset maari- 
tellaan. Alakohtainen mallintaminen on ominaista tie- 
don eristamiselle ja onkin toinen esimerkki jarjestelmas- 
sa taka-alalla toimivasta hyvin rajattavissa olevan tutki- 


muksen sovelluksesta. 


Lyhennelman tuottaminen teksteista ja tekstin tuotta- 
minen yleensakin ovat kaksi toisiinsa rajoittuvaa alaa, 
jotka voivat toimia joko itsendisina sovelluksina tai tu- 


kisovelluksina. Lyhennelman tuottaminen pyrkii ko- 
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pioimaan pitkan tekstin sisaltamat oleelliset asiat tiivii- 
seen muotoon ja se on esimerkiksi eras Microsoft Wor- 
din toiminnoista. Sovellus kayttaa paaasiassa tilastollista 
menetelmaa tekstin keskeisten sanojen tunnistamiseen 
(toisin sanoen sanojen, jotka esiintyvat kyseisessa teks- 
tissa hyvin usein verrattuna niiden esiintymistiheyteen 
kyseisessa kielessa yleensa) ja paattelee, mitka virkkeet 
sisaltavat eniten tallaisia keskeisia sanoja. Kyseiset virk- 
keet eristetaan ja liitetaan toisiinsa tiivistelman luomi- 
seksi. Tassa varsin tavallisessa ja usein kaupallisessa so- 
velluksessa tiivistiminen on yksinkertaisesti virkkeiden 
eristamista ja nain tiivistelma muodostuu alkuperaisista 
virkkeista sellaisinaan. Vaihtoehtoinen ja jo jokin verran 
tutkittu lahestymistapa on taysin uudenlaisten virkkei- 
den generointi, jotka eivat esiinny sellaisinaan lahtéteks- 
tissd. Prosessi edellyttaa tekstin syvempaa ymmartamis- 
ta, mika tarkoittaa kaytanndssa my6s sita, etta sovellus 
on ainakin toistaiseksi selvasti vahemman vakaa. Teks- 
tin tuottamisen sovellus on lopulta harvemmin kaytés- 
s itsendisena vaan useimmiten upotettuna laajempaan 
ohjelmistoymparist66n, kuten esimerkiksi laaketieteel- 
liseen potilastietoja keraavaan, sailyttavaan ja prosessoi- 
vaan tietojarjestelmaan. Raporttien tuottaminen on yk- 
si lyhennelman tuottamisen teknologian monista sovel- 


luksista. 


Useimpien suomen kielen tekstiteknologioiden 
tilanne on huonompi kuin englannin. 


Useimpien tekstiteknologioiden tilanne on suomen kie- 
len osalta paljon huonompi kuin englannin, jossa ky- 
symysvastausjarjestelmat, tiedon eristaminen ja tekstin 
tiivistelmien tuottamisen menetelmat ovat 1990-luvun 
jalkeen olleet useiden avoimien kilpailujen aiheena. Kil- 
pailuja on paaasiallisesti jarjestanyt DARPA/ NIST Yh- 
dysvalloissa ja niiden kautta on pystytty merkittavasti 
parantamaan alan tilannetta, mutta vain englannin kie- 


len suhteen, suomen kieli kun ei ole ollut hankkeissa mu- 


kana. Suomen kielesta ei siten mydskaan ole tuloksena 
saatu annotoituja korpuksia tai muita resursseja. Puh- 
taasti tilastollisiin menetelmiin pohjautuvat tiivistamis- 
jarjestelmat ovat usein riittavan riippumattomia kieles- 
ta, ja joitakin tutkimusprototyyppeja onkin saatavilla. 
Uudelleen kaytettavat komponentit ovat tekstin tuotta- 
misen puolella perinteisesti rajoittuneet pintamuotojen 
tuottamisen osioihin, ja jalleen suurin osa ohjelmista on 


tehty englantia varten. 


4.4 KIELITEKNOLOGIAN 
OPETUS SUOMESSA 


Kieliteknologia on monitieteinen ja poikkitieteellinen 
ala, ja sen hyva hallinta edellyttaa erikoistumisalasta 
riippuen muun muassa kielitieteen, puhetieteiden, tie- 
tojenkasittelytieteen, matematiikan, filosofian ja kog- 
nitiotieteen asiantuntemusta. Kieliteknologiaa on voi- 
nut opiskella paaaineena Helsingin yliopistossa vuo- 
desta 1994 alkaen ja oppiaine on ollut aktiivinen luo- 
maan yhteisty6kuvioita muiden yliopistojen kanssa tar- 
joten my6s lahialojen kursseja opiskelijoille seka kan- 
sallisella etta kansainvélisella tasolla. Kansallisen yhteis- 
ty6n tuloksena perustettiin 10 yliopiston voimin vuon- 
na 2001 kieliteknologian opetuksen KIT-verkosto ja 
yhteistyéssa yliopistot loivat toimivan kurssien vaihto- 
jarjestelman ja yhteisen opetusohjelman. Muodollinen 
yliopistojen valinen sopimus paattyi vuonna 2007, mut- 
ta suomalaisissa yliopistoissa kirjoilla olevat opiskeli- 
jat voivat hakea tiedekunniltaan joustavien opintojen 
(JOO) opinto-oikeutta kieliteknologian kurssien suo- 
rittamiseen verkoston yliopistoissa. KIT-verkoston yli- 
opistot ovat Aalto-yliopisto, Helsingin yliopisto, Ita- 
Suomen yliopisto, Jyvaskylan yliopisto, Tampereen yli- 
opisto, Tampereen teknillinen yliopisto, Turun yliopis- 
to, Vaasan yliopisto, Oulun yliopisto ja Abo Akademi. 

Vuosina 2006-2009 kieliteknologiasta riittavat perus- 


tiedot opiskellut opiskelija saattoi kandidaatintutkin- 
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non suoritettuaan hakeutua maisteriopintoihin Helsin- 
gin yliopiston kieliteknologian oppiaineeseen. Maiste- 
riohjelman opiskelijan oli mahdollista valita paaaineek- 
si kieliteknologia, puheteknologia tai kaannésteknolo- 
gia ja siihen soveltuvat kurssit yhteisesta kurssitarjon- 
nasta. Vuonna 2009 muodollinen maisteriohjelma paat- 
tyi laitosrakenteiden uudistuessa. Kandidaattiopintojen 
ja maisteriopintojen eriytymisen my6ta opiskelijat voi- 
vat hakeutua suorittamaan maisterivaihetta kielitekno- 
logian oppiaineeseen ilman erityista maisteriohjelmaa. 
KIT-tutkijakoulu toimi vuosina 2004-2009 osana uut- 
ta pohjoismaisen tutkijakoulutusyhteistyon tuloksena 
syntynytta. NGSLT-tutkijakoulua (Nordic Graduate 
School of Language Technology). KIT-tutkijakoulu sai 
kahdelle nelivuotiskaudelle viisi opetusministerion ra- 
hoittamaa tutkijakoulupaikkaa ja vuonna 2010 se yhdis- 
tyi kielentutkimuksen LANGNET-tutkijakouluun sen 
yhdeksi osaohjelmaksi. 

Kieliteknologian tutkijoiden riittava maarallinen kou- 
lutus on monipuolisen tutkimuksen edellytys, joka puo- 
lestaan johtaa kaupallisten sovellusten onnistuneeseen 


tuotteistamiseen [33]. 


A.5 KANSALLISET HANKKEET 


Suomen tarkeimméat tutkimusrahoittajat ovat Opetus- 
ja kulttuuriministerion rahoittama Suomen Akatemia 
seka Tekes — teknologian ja innovaatioiden kehitta- 
miskeskus, jota rahoittaa Kauppa- ja teollisuusminis- 
terid [34]. 1980-luvulla Suomen itsenaisyyden juhla- 
rahasto Sitra rahoitti Kielikone-nimista konekaannés- 
hanketta. Tekesin tarjoama julkinen rahoitus on ol- 
lut perustutkimuksen tarkea rahoituslahde ja se on to- 
teutunut erityisesti kahden laajan teknologiaohjelman 
kautta USIX (Uusi kayttajakeskeinen tietotekniikka) 
1999-2002 and FENIX (Vuorovaikutteinen tietotek- 
niikka) 2003-2007. 

USIX-teknologiaohjelman tavoitteena oli nostaa esiin 


tuotteiden ja teknologioiden kayttajien ja kuluttajien 


tarpeita tarjoamalla suomalaisille yrityksille ja tutkimus- 
laitoksille rahoitusta niiden kehittamiseen. Ohjelman 
puitteissa tunnistettuja ydinteknologioita olivat suo- 
men kielen puheentunnistus, laajojen aineistojen ka- 
sittely ja hakukayttéliittymat. Ohjelman aikana rahoi- 
tusta sai 181 hanketta, joiden yhteenlaskettu volyymi 
oli 84 miljoonaa euroa, joista 44 miljoonaa tuli Teke- 
sin kautta. 29 prosenttia hankkeista oli tutkimushank- 
keita. Esimerkkeja luonnollisen kielen USLX tutkimus- 
hankkeista ovat WEBSOM, jossa kehitettiin itseorgani- 
soituvien karttojen (Self-Organizing Map, SOM) tek- 
nologioita ja GILTA tavoitteenaan laajojen tekstiaines- 
ten hallinta, INTERACT, STT Speech-to-Text (suo- 
men kielen foneemisen puheentunnistuksen tutkimus 
ja kehitys), Suomen puheteknologian kentan yhteishan- 
ke SuoPuhe, Noise Robust Multilingual Speech Recog- 
nition, Dictionaries and language checking tools, ja 
Multilingual adaptative translation knowledge base, jot- 
ka toteutettiin useimpien suomalaisten yliopistojen ja 
useiden yritysten yhteistyona. Monet kaupalliset USIX- 
ohjelman sisalla kehitetyt tuotteet ovat tanaan saatavis- 


sa kaupallisilla markkinoilla [35]. 


FENIX-teknologianohjelman puitteissa toteutettiin 
useita luonnollisen kielen kasittelyn hankkeita, jois- 
ta esimerkkeina mainittakoon FENIX 4M (Mobi- 
le and Multilingual Maintenance Man) ja FinnON- 
TO (Semantic Web Ontologies) Helsingin yliopistossa, 
New methods and applications in speech processing ja 
Search-in-a-Box (Turun yliopisto), Rich semantic me- 
dia for personal and professional users (VT'T Teknilli- 
nen tutkimuskeskus) ja Intelligent Web Services (Hel- 
sinki School of Science and Technology), StatHouse Se- 
mantics and Automatic content classification and onto- 


logies (Seerco Ltd) [36]. 


Viime vuosina puhesynteesin tutkimuksen Helsingin 
yliopiston ja Aalto-yliopiston yhteistyOhanke on otta- 
nut huomattavia edistysaskeleita kehittdessaan tilastol- 


lisiin Markovin piilomalleihin perustuvaa parametrista 
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synteesia ja uutta fysiologiseen tutkimukseen pohjautu- 
vaa vokooderia hyédyntavaa teknologiaa. 

Suomessa toteutettuja EU-rahoitteisia projekteja 1980- 
luvun jalkeen ovat LR SIMPLE, LR PAROLE ja MLIS 
5008 LINGMACHINE. Euroopan komissio rahoit- 
ti hankkeen CLARIN (Common Language Resources 
and Technology Infrastructure) ensimmiaista vaihetta 
vuosina 2008-2010. CLARIN-yhteisty6 jatkuu. Hank- 
keen kansallisen FIN-CLARIN osuuden rahoitukses- 
ta vastaa Opetus- ja kulttuuriministerid. FIN-CLARIN 
konsortio muodostuu seuraavista osapuolista: CSC 
Tieteen tietotekniikan keskus, Kotimaisten kielten kes- 
kus KOTUS, Ité-Suomen, Helsingin, Jyvaskylan, Ou- 
lun, Tampereen ja Turun ja Vaasan yliopistot, Aalto- 
yliopisto ja Abo Akademi. HFST (Helsinki Finite State 
Transducer Technology), OMor (Open Source Morp- 
hologies), FinnWordNet ja FinnTreeBank ovat esimerk- 
keja edelleen kaynnissa olevista projekteista. 

Helsingin yliopiston kieliteknologian oppiaine teki 
aktiivisesti my6s pohjoismaista yhteistyéta vuosina 
2000-2004 osallistumalla useisiin Pohjoismaisen mi- 
nisterineuvoston NordForskin kautta rahoittamiin kie- 
liteknologiaohjelman Spragteknologiprogram hankkei- 
siin. Suomen kieliteknologian dokumentointikeskus 
FiLT perustettiin keraamaan tietoa kieliteknologian 
kaupallisista ja akateemisista toimijoista, tutkimuksesta, 
resursseista ja tuotteista seka niiden saatavuudesta. 
Kieliteknologian hankkeet, seka paattyneet etta kayn- 
nissd olevat, ovat mahdollistaneet kieliteknologisten 
tyOkalujen ja kieliaineistojen kehittymisen. Seuraavassa 
osiossa esitetaan yhteenveto kieliteknologian tyékaluis- 


ta ja kieliaineistoista. 


A.6 KIELITEKNOLOGISET 
TYOKALUT JA KIELIAINEISTOT 


Taulukossa 8 esitetaan kieliteknologisten resurssien ta- 


man hetkinen tilanne suomen kielen osalta. Tyokalujen 


ja kieliaineistojen arvioinnin suorittivat alan asiantunti- 
jat, jotka tuottivat arvioita resursseista skaalalla 0 (hyvin 
matala taso) — 6 (erittdin korkea taso) seitseman kritee- 
rin osalta. Keskeisimmat havainnot suomen kielen osal- 


ta voidaan tiivistaa seuraavasti: 


# Vaikka korkealaatuisia erityisalojen tekstikorpuksia 
onkin saatavilla, ei suomen kielesta viela ole kaytet- 
tavissa riittavan laajaa syntaktisesti annotoitua kor- 
pusta ja aineistojen standardointity6 on viela kes- 
ken. Kieliteknologian alan tuotekehitykseen Suo- 


messa tarvitaan laajoja, ajantasaisia resursseja. 


a Syntaktisen jasentémisen tydkaluja on useita ja ne 
perustuvat useisiin erilaisiin kielellisin malleihin. 
Yleisesti ottaen ne toimivat hyvin ottaen huomioon 
suomen kielen haastavat ominaispiirteet. Semantii- 
kan tutkimus ei viela ole johtanut kaupallisiin sovel- 


luksiin. 


= Puheteknologiassa suurimmat edistysaskeleet on 
otettu puheentunnistuksen alueella. Suomen kielen 
ominaispiirteista johtuen ovat puheentunnistuksen 
edellyttamat sanalistat ja leksikot aikaisemmin ol- 
leet epakaytanndllisen suuria. Puheteknologian tut- 
kimusryhma Teknillisessa korkeakoulussa (nykyinen 
Aalto-yliopisto) esitteli jo vuonna 2002 sanojen au- 
tomaattisen segmentoinnin menetelman, jonka an- 
siosta leksikon koko pieneni merkittavasti. Tata 1a- 
pimurtoa ei viela ole hyédynnetty kaupallisella puo- 
lella. Puhesynteesin tutkimus on edennyt huomatta- 
vasti viimeisten vuosien aikana, mutta ty6 on viela 
laboratorioasteella. Puhesynteesin tuotekehitykseen 
tarvitaan huomattavia lisaresursseja. Puheaineisto- 
jen keraaminen on hankalaa ja edellyttaa paljon ty6- 
ta. 

# Vain harvoissa hankkeissa tyéskennellaan tiedonha- 
kuun liittyvien kysymysten parissa. Tavallisempaa on 
valita olemassa oleva ty6kalu ja istuttaa suomen kie- 
len jasennin sen osaksi, jolloin lisensseihin liittyvat 


kysymykset on huomioitava, eika tyOkalua aina enaa 


eee lll 4 
po 
WRichSpiIReRanAV 35 55854 4 8S 8S 
SG of 1 1 1 1 07 
CS > 3 4 2 3 3 4 
Kemet K 


3 
2 


4 4 3,5 3,5 3,5 4 
3 3 2 2 2 2 
2 3 2 2 3 3 
4 3,5 4 3,5 3,5 3,5 
5 4 4 4 3 3 


8: Suomen kielen kieliteknologian tuki 


mydhemmin ole mahdollista kayttaa muissa ympa- 


ristOissa. 


Suomen kielelle on olemassa vain vahan multimo- 
daalisia resursseja eika kaytannossa lainkaan pitkalle 


kehitettyja tyokaluja niiden hyddyntaimiseen. 


Tekijanoikeudet estavat usein digitaalisten aineisto- 
jen vapaan kaytén kielitieteelliseen ja kieliteknolo- 
giseen tutkimukseen. Tarvitaan yhteistyota lainsaa- 
tajien kanssa ja yhteinen pyrkimys tilanteeseen, jos- 
sa aineistojen vapaa kaytt6 tutkimus- ja kehityskayt- 


t66n tulisi mahdolliseksi entista laajemmin. 


Yhteenvetona todettakoon, etta suomen kielen tutki- 
muksen tuloksena meilla on kaytettivissimme sovel- 
lusohjelmia, joiden toiminnallisuus on viela rajattua. 
Tutkimukseen tarvitaan liséa resursseja, jotta sovelluk- 
siin saadaan merkitysta analysoivia komponentteja mu- 


kaan parantamaan niiden laatua. Kehitysty6 edellyttaa 


myés lisaa kieliresursseja, kuten esimerkiksi rinnakkais- 


korpuksia konekaantamisen tutkimukseen. 


4.7 KIELTENVALISTA VERTAILUA 


Kieliteknologisten sovellusten saatavuus vaihtelee suu- 
resti kielten valilla. Kieltenvalista vertailua varten tas- 
sa osiossa esitellaan yhteenveto arvioista, jotka on tehty 
kahdesta sovellusalasta, konekaantamisesta ja puheen- 
kasittelysta, seka yhdesta taustateknologiasta, tekstin 
analyysista. Lisaksi arvioidaan kieliteknologisovellusten 
tuotekehityksen tarvitsemien resurssien saatavuutta. 


Kielet luokiteltiin seuraavien viiden asteen perusteella: 


1. Erinomainen tuki 
2. Hyva tuki 
3. Kohtuullinen tuki 


4, Osittainen tuki 
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5. Heikko tai olematon tuki 


Kieliteknologian tukea arvioitiin seuraavien kriteerien 


perusteella: 


= Puheenkasittely: Olemassaolevien puheentunnis- 
tuksen teknologioiden laatu, puhesynteesin tekno- 
logioiden laatu, sovellusalojen kattaminen, puhekor- 
pusten mara ja koko, saatavilla olevien puhepohjais- 


ten sovellusten maara ja laaja-alaisuus 


= Konekaannés: Olemassaolevien konekaantamisen 
teknologioiden laatu, katettujen kieliparien maara, 
kielellisten ilmididen ja eri alojen kattaminen, rin- 
nakkaiskorpusten laatu ja koko, saatavilla olevien ko- 


nekaannéssovellusten maara ja laaja-alaisuus 


« Tekstin analyysi: Olemassaolevien tekstin analyysin 
teknologioiden laatu ja kattavuus (morfologia, syn- 
taksi, semantiikka), kielellisten ilmididen ja eri alo- 
jen kattaminen, (annotoitujen) tekstikorpusten laa- 
tu ja maara, leksikaalisten resurssien (esim. Word- 


Net) ja kielioppien laatu ja kattavuus 


= Kieliaineistot: Olemassaolevien tekstikorpusten, 
puhekorpusten ja rinnakkaisskorpusten laatu ja ko- 
ko, leksikaalisten resurssien ja kielioppien laatu ja 


kattavuus 


Kuten taulukot osoittavat, on suomen kieleen panostet- 
tu vahemmian resursseja kuin Euroopan suuriin kieliin, 
erityisesti englantiin. Kieliteknologiset konekaannésso- 
vellukset on arvioitu alhaisen tuen luokkaan. Puhetek- 
nologian alalla nykyiset sovellukset ovat jo pitkalle tut- 
kittuja ja tuotteistettuja erikoisalojen kaytt66n. Kieli- 
resurssien osalta tarvitaan lisaa laajoja puhe- ja tekstiai- 
neistoja. Tekstin kasittelyn perussovellukset kuten tavu- 
tus ja oikolukuohjelmat toimivat tyydyttavasti. 

Kehittyneempien sovellusten rakentamiseen esimerkik- 
si konekaann6sta varten tarvitaan selkeAsti lisaa resurs- 
seja ja teknologioita, jotka kattavat kielitieteellisen tie- 


don mahdollisimman laaja-alaisesti ja hyodyntavat se- 


manttista tietamysta aikaisempaa enemman; esimerkik- 
si konekaantimeen sy6tettava aines voitaisiin ensin ana- 
lysoida semanttisesti. Resurssien ja teknologioiden laa- 
tua parantamalla ja kattavuutta lisaamalla voimme ava- 
ta uusia mahdollisuuksia tulevaisuuden pitkalle kehitty- 
neilla sovellusaloilla, mukaan lukien korkealuokkainen 


konekaantaminen. 


A.8 JOHTOPAATOKSET 


Tassi META-NET Valkoiset kirjat -julkaisusarjan ra- 
portissa olemme ensimmaisen kerran kartoittaneet 30 eu- 
rooppalaisen kielen kieliteknologian tukea ja verranneet 
Euroopan kielten tilannetta keskenaan. Euroopan kieli- 
teknologiayhteiso ja sen toimijat ovat tunnistaneet alan 
tarpeita, puutteita ja kehityksen esteita ja olemme nyt ti- 
lanteessa, jossa avautuu mahdollisuus yhdessa suunnitel- 
la laajamittainen tutkimus- ja kehitysohjelma, jossa ta- 
voitteena on rakentaa aidosti monikielinen, kieliteknolo- 
gisesti ajan tasalla oleva Eurooppa. 

Euroopan kielten valilla on suuria eroja. Kun joillekin 
kielille ja sovellusaloille loytyy hyvalaatuisia ohjelmisto- 
jaja resursseja, toisten kohdalla on viela isojakin puuttei- 
ta. Monet kielet ovat vailla toisaalta tekstin analyysin pe- 
rusteknologioita ja toisaalta valttamattomia resursseja, 
joiden avulla teknologioita voitaisiin kehittaa. Joiden- 
kin kielten perustyokalut ja resurssit ovat olemassa, mut- 
ta viela ei ole kyetty takaamaan riittavia resursseja kielen 
semanttiseen tutkimukseen. Nyt on aika toteuttaa haave 
korkealuokkaisesta, kaikki Euroopan kielet kattavavasta 
konekaanndsjarjestelmasta. 

Kieliteknologian perustutkimus sai Suomessa hyvin ra- 
hoitusta 1980- ja 1990-luvuilla, mutta sen jalkeen ra- 
hoitus ei ole ollut samalla tasolla. Vaikka Tekes ja Suo- 
men Akatemia rahoittivat useita kieliteknologisia ke- 
hityshankkeita 2000-luvulla, ei naiden hankkeiden tu- 
loksia ja sovelluksia ole avoimesti ja laaja-alaisesti jaet- 
tu kieliyhteison kaytto6n. Kuten tassa raportissa osoi- 


tetaan, kieliteknologisten sovellusten saatavuus ja laatu 


3] 


ovat hyvaksyttavia vain perussovellusten ja perusresurs- 
sien osalta. Suomessa ollaan jaamiassa jalkeen keskeisten 
digitaalisten resurssien kehittamisessa. Ne ovat oleelli- 
sia kielen sailymisen turvaamiseksi. BLARK (Basic Lan- 
guage Resource Kit) kartoittaa tilannetta puheen, teks- 
tin ja leksikoiden osalta ja se on tarkea ty6kalu kielitek- 
nologisten moduulien ja tyékalujen kehitystydssa. Iso- 
jen ajantasaisten kieliaineistojen tarve kieliteknologisen 
tutkimuksen ja tuotekehityksen kaytté6n kasvaa. 
Euroopanlaajuisten raportin kirjoittamisen aikaan 
kaynnissa olevien hankkeiden CLARIN (Common 
Language Resources and Technology Infrastructure) 
ja META (Multilingual Europe Technology Alliance) 
tavoitteena on tukea kieliteknologisten kieliresurssien 
ja teknologioiden jakelua ja saatavuutta eurooppalaisel- 
la tasolla. Suomen kansallisiin tarpeisiin ei kuitenkaan 
viela ole riittavasti panostettu. 

Taman raportin tulokset osoittavat, etta ainoa kestava 
vaihtoehto on panostaa suomen kielen kieliteknologioi- 


den kehittamiseen, jotta alan tutkimuksen ja tuoteke- 


hityksen kentallé voidaan jatkaa hyvin aloitettua tyéta. 
Uudenlainen infrastruktuuri ja yhtenainen tutkimusor- 
ganisaatio ja naiden mahdollistama kansallinen ja kan- 
sainvalinen yhteisty6 ovat valttamattémia. Tutkimus- 
ja kehityshankkeiden rahoitus karsii jatkuvuuden puut- 
teesta ja lyhyen aikavalin ohjelmat vaihtelevat ajanjak- 
sojen kanssa, jolloin rahoitusta on tarjolla vahan tai ei 
lainkaan. Resursseja tarvitaan suomen kielen laajojen ai- 
neistojen keraamiseen, kieliteknologian tutkimukseen, 
teknologioiden kehittamiseen ja tuotekehitykseen. 

META-NET -hankkeen pitkan tihtaimen tavoite on 
tuoda korkealuokkaista kieliteknologiaa kaikkien kiel- 
ten ulottuville, jotta nain mahdollistetaan poliittinen 
ja taloudellinen yhtenaisyys kulttuurinen monimuotoi- 
suus sdilyttaen. Teknologia tulee auttamaan olemassa 
olevien esteiden poistamisessa ja yhteyksien luomises- 
sa Euroopan kielten valille. Tyossa tarvitaan kaikkia toi- 
mijoita — niin politiikassa, tutkimuksessa, liike-elamassa 
kuin yhteiskunnassakin — yhdistamaan voimansa tule- 


vaisuuden eteen. 
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9: Puheenkasittely: 30 eurooppalaisen kielen tilanne 
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11: Tekstinanalyysi: 30 eurooppalaisen kielen tilanne 
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12: Puhe- ja tekstiaineistot: 30 eurooppalaisen kielen tilanne 
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META-NET 


META-NET on Euroopan komission rahoittama huip- 
puosaamisen verkosto [1], joka muodostuu 54 tutki- 
muskeskuksesta 33 Euroopan maassa. Nopeasti kasva- 
va monikielisen Euroopan teknologiaverkosto META 
koostuu kieliteknologian ammattilaisista ja organisaa- 
tioista. Sen taustavoimana META-NET on sitoutunut 
rakentamaan monikielisen tietoyhteiskunnan teknolo- 


gista perustaa, joka: 


# mahdollistaa vuorovaikutuksen ja yhteisty6n kieli- 


rajojen ylitse; 


= varmistaa kaikkien kielten puhujille tiedon ja tieta- 


myksen tasavertaisen saatavuuden; 


= tarjoaa kaikkien eurooppalaisten saataville edistyk- 


sellista verkostoitunutta tietotekniikkaa. 


META-NET edistaa Euroopan yhdentymista kaik- 
kien kansalaistensa saavutettavaksi verkkokaupan 
yhteismarkkina-alueeksi ja tietoavaruudeksi. META- 
NET edistaa my6s monikielisten teknologiasovellusten 
kehittamista ja tuotteistamista kaikkia Euroopan kielia 
varten. Sovellukset mahdollistavat automaattisen kaan- 
tamisen, sisalléntuotannon seka tiedon ja tietamyksen 
hallinnan monissa erilaisissa jarjestelmissa ja useilla eri- 
koisaloilla. Niiden avulla voidaan luoda helppotajui- 
sia kieleen pohjautuvia kayttoliittymia erilaisiin tek- 
nologisiin tuotteisiin kodinkoneista ja kulkuneuvoista 
tietokoneisiin ja robotteihin. 1.2.2010 kaynnistyneen 
META-NET-hankkeen kolme toimintalinjaa, META- 
VISION, META-SHARE ja META-RESEARCH, 


ovat jo aktiivisia. 


META-VISION edistaa toimivan ja vaikutusvaltaisen 
yhteis6n syntymista yhteisen tavoitteen ja tutkimusoh- 
jelman (strategic research agenda, SRA) toteuttamisek- 
si. Toimintalinjan tarkein tavoite on rakentaa Euroopan 
kieliteknologiayhteisdsta yhtendinen ja sitoutunut tuo- 
malla yhteen toimijoita erilaisista ryhmista. Tama val- 
koinen kirja on toteutettu myés 29 muulla eurooppa- 
laisella kielella. Naille yhteinen teknologinen tulevai- 
suudennakyma on syntynyt kolmen alakohtaisen visio- 
ryhman voimin. META-teknologianeuvosto perustet- 
tiin valmistelemaan tulevaisuudennakymaan pohjautu- 
vaa tutkimusohjelmaa laheisessa vuorovaikutuksessa ko- 
ko kieliteknologiayhteison kanssa. 

META-SHARE luo avointa, hajautettua infrastruktuu- 
ria resurssien vaihtamista ja jakamista varten. Tietova- 
rastojen verkosto tulee sisaltamaan kieliaineistoja, ty6- 
kaluja ja verkkopalveluita, jotka on kuvattu laadukkaasti 
ja luokiteltu sovittuja standardeja noudattaen. Resurssit 
ovat helposti saavutettavissa ja yhtalaisesti haettavissa, ja 
ne sisaltavat kaikkea vapaista avoimen koodin materiaa- 
leista rajoitettuihin kaupallisiin tuotteisiin. 
META-RESEARCH rakentaa yhteyksia toisiaan lahel- 
la olevien teknologisten alojen vilille. Pyrkimyksena 
on hyédyntaa eri alojen kokemuksia ja saavutuksia ja 
panostaa nain innovatiiviseen kieliteknologiseen tutki- 
mukseen. Toimintalinja keskittyy erityisesti huipputa- 
son konekaantamisen tutkimukseen, tiedonkeruuseen, 
tutkimusaineistojen valmistamiseen ja kielivarojen jar- 
jestelyyn arviointia varten. Tietoja tydkaluista ja mene- 
telmista kootaan hakemistoihin seka jarjestetaan yhtei- 
son jasenille tyépajoja ja koulutustilaisuuksia. 


office@meta-net.eu — http://www.meta-net.eu 
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EXECUTIVE SUMMARY 


Information technology changes our everyday lives. We 
typically use computers for writing, editing, calculat- 
ing, and searching for information; and increasingly for 
reading, listening to music, viewing photos and watch- 
ing movies. We carry small computers in our pock- 
ets and use them to make phone calls, write emails, 
get information and entertain ourselves, wherever we 
are. How does this massive digitization of information, 
knowledge and everyday communication affect our lan- 


guage? Will our language change or even disappear? 


All our computers are linked together into an increas- 
ingly dense and powerful global network. The girl in 
Ipanema, the customs officer in Imatra and the engi- 
neer in Kathmandu can all chat with their friends on 
Facebook, but they are unlikely ever to meet one an- 
other in online communities and forums. If they are 
worried about how to treat earache, they will all check 
Wikipedia to find out all about it, but even then they 
won't read the same article. When Europe’s netizens dis- 
cuss the effects of the Fukushima nuclear accident on 
European energy policy in forums and chat rooms, they 
do so in cleanly-separated language communities. What 
the internet connects is still divided by the languages of 


its users. Will it always be like this? 


In science fiction movies, everyone speaks the same lan- 
guage. Could it be Finnish, even though astronauts 
rarely mouth Finnish words as naturally as they speak 
English? Many of the world’s 6,000 languages will not 
survive in a globalized digital information society. It is 
estimated that at least 2,000 languages are doomed to 


extinction in the decades ahead. Others will continue 


to play a role in families and neighbourhoods, but not 
in the wider business and academic world. What are the 


Finnish language’s chances of survival? 


With more than 5 million speakers, the Finnish lan- 
guage is fairly well positioned compared to many lan- 
guages. There are 4 public television channels with 
Finnish-language programmes and more than 30 pri- 
vate TV broadcasters. Most international movies have 
Finnish subtitles. After Finland became a full member 
of the EU, the Finnish language has probably somewhat 


strengthened its position and status. 


The status of a language depends not only on the num- 
ber of speakers or books, films and T'V stations that use 
it, but also on the presence of the language in the digital 
information space and software applications. Here too, 
the Finnish language is fairly well-placed: all important 
international software products are available in Finnish 
versions; the Finnish Wikipedia has more than 290,000 
articles and the Finnish top level domain .fi is very pop- 


ular. 


In the field of language technology, the Finnish lan- 
guage is moderately equipped with products, technolo- 
gies and resources. There are applications and tools 
for speech synthesis, speech recognition, information 
retrieval, spelling correction and grammar checking. 
There are also a few applications for automatically trans- 
lating language, even though these often fail to produce 
linguistically and idiomatically correct translations, es- 
pecially when Finnish is the target language. This is 
partly due to the specific linguistic characteristics of the 


Finnish language. 
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Information and communication technology are now 
preparing for the next revolution. After personal com- 
puters, networks, miniaturisation, multimedia, mobile 
devices and cloud-computing, the next generation of 
technology will feature software that understands not 
just spoken or written letters and sounds but entire 
words and sentences, and supports users far better be- 
cause it speaks, knows and understands their language. 
Forerunners of such developments are the free online 
service Google Translate that translates between 57 lan- 
guages, IBM’s supercomputer Watson that was able to 
defeat the US champion in the game of “Jeopardy”, and 
Apple’s mobile assistant Siri for the iPhone that can re- 
act to voice commands and answer questions in English, 


German, French and Japanese. 


The next generation of information technology will 
master human language to such an extent that human 
users will be able to communicate using the technology 
in their own language. Devices will be able to automat- 
ically find the most important news and information 
from the world’s digital knowledge store in reaction to 
easy-to-use voice commands. Language-enabled tech- 
nology will be able to translate automatically or assist 
interpreters; summarise conversations and documents; 
and support users in learning scenarios. For example, it 
will help immigrants to learn the Finnish language and 


to integrate more fully into the country’s culture. 


The next generation of information and communi- 
cation technologies will enable industrial and service 
robots (currently under development in research labo- 
ratories) to faithfully understand what their users want 
them to do and then proudly report on their achieve- 


ments. 


This level of performance means going way beyond sim- 
ple character sets and lexicons, spell checkers and pro- 
nunciation rules. The technology must move on from 
simplistic approaches and start modelling language in 


an all-encompassing way, taking syntax as well as seman- 


tics into account to understand the essence of questions 


and generate rich and relevant answers. 


However, there is a yawning technological gap between 
English and Finnish, and it is currently getting wider. 
After a very successful research record in the 1980s and 
1990s, Finland is currently losing its role as a contribu- 
tor of language technology. Basic language technology 
research was funded at a Centre of Excellence level in the 
1980s and 1990s, which resulted in a number of spin-off 


enterprises based on the technologies developed. 


After the period of basic research funding only small 
scale industrial project funding has been provided by 
Tekes, the Finnish Funding Agency for Technology and 
Innovation. Asa result, Finland (and Europe in general) 
lost some very promising high-tech innovations to the 
US, where there is greater continuity in their strategic 
research planning and more financial backing for bring- 
ing new technologies to the market. In the race for tech- 
nology innovation, an early start with a visionary con- 
cept will only ensure a competitive advantage if you can 
actually make it over the finish line. Otherwise all you 


get is an honorary mention in Wikipedia. 


After this decline in language technology basic research 
funding in Finland, many experts migrated to diverse 
small companies. US-based companies used their re- 
sources to develop technologies into their own indus- 
trial strength products. Nevertheless, there is still a very 
high research potential in Finland. Apart from inter- 
nationally renowned research centres and universities, 
there are a number of innovative small and medium- 
sized language technology companies that manage to 
survive through sheer creativity and immense efforts, 
despite the lack of venture capital or sustained public 


funding. 


Due to early commercial successes for Finnish language 
technology, the availability of basic tools such as parsers 
and lexicons in the research community for processing 


Finnish became limited. As an odd consequence, tech- 
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nology specifically adapted to the Finnish language was 
only marginally involved in Finnish research projects 
and therefore most of the research and development 
prototypes used English. 

Because of the lack of adequate language resources and 
basic research funding, the Finnish language has been 
hardly present in any international technology com- 
petitions. This holds true for extracting information 
from texts, grammar checking, machine translation and 
a whole range of other applications. 

Many researchers believe that these setbacks are due to 
the fact that, for fifty years now, the methods and algo- 
rithms of computational linguistics and language tech- 
nology application research have first and foremost fo- 
cused on English. In a selection of leading conferences 
and scientific journals published between 2008 and 
2010, there were 971 publications on language technol- 
ogy for English and only 10 for Finnish. Language tech- 
nology for Danish and Swedish was better represented 
with 26 and 19 articles respectively, while Norwegian 
trailed behind with only 2 articles. 

However, other researchers believe that English is inher- 
ently better suited to computer processing. Languages 
such as Spanish and French are also a lot easier to pro- 
cess than Finnish using current methods. This means 
that we need a dedicated, consistent and sustainable re- 
search effort if we want to use the next generation of in- 
formation and communication technology in those ar- 
eas of our private and work life where we speak and write 
Finnish. 

Summing up, despite the prophets of doom the Finnish 
language is not in danger, even from the prowess of En- 
glish language computing. However, the whole situa- 
tion could change dramatically when a new generation 


of technologies really starts to master human languages 


effectively. Through improvements in machine transla- 
tion, language technology will help in overcoming lan- 
guage barriers, but it will only be able to operate be- 
tween those languages that have managed to survive in 
the digital world. If there is adequate language technol- 
ogy available, then it will be able to ensure the survival 


of languages with small populations of speakers. 


The dentist jokingly warns: “Only brush the teeth you 
want to keep”. The same principle also holds true for re- 
search support policies: you can study every language 
under the sun all you want, but if you really intend to 
keep them alive, you also need to develop technologies 


to support them. 


META-NET’s vision is high-quality language technol- 
ogy for all languages in order to achieve political and 
economic unity through cultural diversity. The tech- 
nology will help tear down existing barriers and build 
bridges between Europe’s languages. This requires all 
stakeholders — in politics, research, business, and soci- 


ety — to unite their efforts for the future. 


Drawing on the insights gained so far, it appears that to- 
day’s ’hybrid’ language technology mixing deep process- 
ing with statistical methods will be able to bridge the gap 
between all European languages and beyond. As this 
series of white papers shows, there is a dramatic differ- 
ence between Europe’s member states in terms of both 
the maturity of the research and in the state of readiness 


with respect to language solutions. 


This white paper series complements other strategic ac- 
tions taken by META-NET (see the appendix for an 
overview). Up-to-date information such as the cur- 
rent version of the META-NET vision paper [3] or the 
Strategic Research Agenda (SRA) can be found on the 
META-NET web site: http://www.meta-net.eu. 
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RISK FOR OUR LANGUAGES AND A 
CHALLENGE FOR LANGUAGE TECHNOLOGY 


We are witnesses to a digital revolution that is dramati- 
cally impacting communication and society. Recent de- 
velopments in digital information and communication 
technology are sometimes compared to Gutenberg’s in- 
vention of the printing press. What can this analogy tell 
us about the future of the European information society 
and our languages in particular? 

After Gutenberg’s invention, real breakthroughs in 
communication and knowledge exchange were accom- 
plished by efforts such as Luther’s translation of the 
Bible into vernacular language. In subsequent centuries, 
cultural techniques have been developed to better han- 


dle language processing and knowledge exchange: 


the orthographic and grammatical standardisation 
of major languages enabled the rapid dissemination 


of new scientific and intellectual ideas; 


the development of official languages made it possi- 
ble for citizens to communicate within certain (of- 


ten political) boundaries; 


the teaching and translation of languages enabled ex- 


changes across languages; 


the creation of editorial and bibliographic guidelines 
assured the quality and availability of printed mate- 


rial; 


the creation of different media like newspapers, ra- 
dio, television, books, and other formats satisfied 


different communication needs. 


In the past twenty years, information technology has 


helped to automate and facilitate many of the processes: 


desktop publishing software has replaced typewrit- 
ing and typesetting; 


overhead projector transparencies have been re- 
placed by programs such as OpenOffice presenta- 


tions or Microsoft PowerPoint; 


= e-mail send and receive documents faster than a fax 


machine; 


free networking environments offer cheap Internet 


phone calls and hosts virtual meetings; 


audio and video encoding formats make it easy to ex- 


change multimedia content; 


search engines provide keyword-based access to web 
pages; 


= online services like Google Translate produce quick, 


approximate translations; 


social media platforms such as Facebook, Twitter, 
and Google+ facilitate communication, collabora- 


tion, and information sharing. 


Although such tools and applications are helpful, they 
are not yet capable of supporting a sustainable, mulkti- 
lingual European society for all where information and 


goods can flow freely. 
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2.1 LANGUAGE BORDERS 
HINDER THE EUROPEAN 
INFORMATION SOCIETY 


We cannot predict exactly what the future informa- 
tion society will look like. But there is a strong like- 
lihood that the revolution in communication technol- 
ogy is bringing people speaking different languages to- 
gether in new ways. This is putting pressure on individ- 
uals to learn new languages and especially on develop- 
ers to create new technology applications to ensure mu- 
tual understanding and access to shareable knowledge. 
In a global economic and information space, more lan- 
guages, speakers and content interact more quickly with 
new types of media. The current popularity of social me- 
dia (Wikipedia, Facebook, Twitter, YouTube, and, re- 
cently, Google+) is only the tip of the iceberg. 

Today, we can transmit gigabytes of text around the 
world in a few seconds before we recognise that it is in 
a language we do not understand. According to a re- 
cent report from the European Commission, 57% of In- 
ternet users in Europe purchase goods and services in 
non-native languages. (English is the most common for- 
eign language followed by French, German and Span- 
ish.) 55% of users read content in a foreign language 
while only 35% use another language to write e-mails or 


post comments on the Web [4]. 


The global economy and information space 
confronts us with different languages, speakers 
and content. 


A few years ago, English might have been the lingua 
franca of the Web — the vast majority of content on the 
Web was in English — but the situation has now drasti- 
cally changed. The amount of online content in other 
European (as well as Asian and Middle Eastern) lan- 


guages has exploded. 


Surprisingly, this ubiquitous digital divide due to lan- 
guage borders has not gained much public attention; 
yet, it raises a very pressing question: Which European 
languages will thrive in the networked information and 


knowledge society, and which are doomed to disappear? 


2.2 OUR LANGUAGES AT RISK 


While the printing press helped step up the exchange of 
information in Europe, it also led to the extinction of 
many European languages. Regional and minority lan- 
guages were rarely printed and languages such as Cor- 
nish and Dalmatian were limited to oral forms of trans- 
mission, which in turn restricted their scope of use. Will 


the Internet have the same impact on our languages? 


Europe’s approximately 80 languages 
are one of its richest and most important 
cultural assets. 


Europe’s approximately 80 languages are one of its rich- 
est and most important cultural assets, and a vital part 
of its unique social model [5]. While languages such as 
English and Spanish are likely to survive in the emerg- 
ing digital marketplace, many European languages could 
become irrelevant in a networked society. This would 
weaken Europe’s global standing, and run counter to the 
strategic goal of ensuring equal participation for every 
European citizen regardless of language. According to 
a UNESCO report on multilingualism, languages are 
an essential medium for the enjoyment of fundamental 
rights, such as political expression, education and par- 


ticipation in society [6]. 
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2.3 LANGUAGE TECHNOLOGY 
IS A KEY ENABLING 
TECHNOLOGY 


In the past, investment efforts in language preservation 
focused on language education and translation. Accord- 
ing to one estimate, the European market for transla- 
tion, interpretation, software localisation and website 
globalisation was 8.4 billion euros in 2008 and is ex- 
pected to grow by 10% per annum [7]. Yet this fig- 
ure covers just a small proportion of current and future 
needs in communicating between languages. The most 
compelling solution for ensuring the breadth and depth 
of language usage in Europe tomorrow is to use appro- 
priate technology, just as we use technology to solve our 


transport, energy and disability needs among others. 


Language technology helps people collaborate, 
conduct business, share knowledge and 
participate in social and political debates across 
different languages. 


Digital language technology (targeting all forms of writ- 
ten text and spoken discourse) helps people collaborate, 
conduct business, share knowledge and participate in 
social and political debate regardless of language barri- 
ers and computer skills. It often operates invisibly inside 


complex software systems to help us: 


= find information with an Internet search engine; 


check spelling and grammar in a word processor; 


view product recommendations in an online shop; 


= hear the verbal instructions of a car navigation sys- 


tem; 


translate web pages via an online service. 


Language technology consists of a number of core appli- 


cations that enable processes within a larger application 


framework. The purpose of the META-NET language 
white papers is to focus on how ready these core tech- 


nologies are for each European language. 


Europe needs robust and affordable language 
technology for all Euro-pean languages. 


To maintain our position in the frontline of global inno- 
vation, Europe will need language technology adapted 
to all European languages that is robust, affordable and 
tightly integrated within key software environments. 
Without language technology, we will not be able to 
achieve a really effective interactive, multimedia and 


multilingual user experience in the near future. 


2.4 OPPORTUNITIES FOR 
LANGUAGE TECHNOLOGY 


In the world of print, the technology breakthrough was 
the rapid duplication of an image of a text (a page) using 
a suitably powered printing press. Human beings had to 
do the hard work of looking up, reading, translating, and 
summarizing knowledge. We had to wait until Edison 
to record spoken language — and again his technology 
simply made analogue copies. 

Language technology can now automate the processes 
of translation, content production, and knowledge 
management for all European languages. It can also 
empower intuitive language/speech-based interfaces for 
household electronics, machinery, vehicles, computers 
and robots. Real-world commercial and industrial ap- 
plications are still in the early stages of development, 
yet R&D achievements are creating a genuine window 
of opportunity. For example, machine translation is al- 
ready reasonably accurate in specific domains, and ex- 
perimental applications provide multilingual informa- 
tion and knowledge management as well as content pro- 


duction in many European languages. 
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As with most technologies, the first language applica- 
tions such as voice-based user interfaces and dialogue 
systems were developed for highly specialised domains, 
and often exhibit limited performance. But there are 
huge market opportunities in the education and en- 
tertainment industries for integrating language tech- 
nologies into games, cultural heritage sites, edutain- 
ment packages, libraries, simulation environments and 
training programmes. Mobile information services, 
computer-assisted language learning software, eLearn- 
ing environments, self-assessment tools and plagiarism 
detection software are just some of the application ar- 
eas where language technology can play an important 
role. The popularity of social media applications like 
Twitter and Facebook suggest a further need for sophis- 
ticated language technologies that can monitor posts, 
summarise discussions, suggest opinion trends, detect 
emotional responses, identify copyright infringements 


or track misuse. 


Language technology helps overcome the 
“disability” of linguistic diversity. 


Language technology represents a tremendous oppor- 
tunity for the European Union. It can help address 
the complex issue of multilingualism in Europe — the 
fact that different languages coexist naturally in Euro- 
pean businesses, organisations and schools. But citi- 
zens need to communicate across these language borders 
criss-crossing the European Common Market, and lan- 
guage technology can help overcome this final barrier 
while supporting the free and open use of individual lan- 
guages. Looking even further forward, innovative Eu- 
ropean multilingual language technology will provide a 
benchmark for our global partners when they begin to 
enable their own multilingual communities. Language 
technology can be seen as a form of ‘assistive’ technol- 


ogy that helps overcome the ‘disability’ of linguistic di- 


versity and make language communities more accessible 


to each other. 


Finally, one active field of research is the use of language 
technology for rescue operations in disaster areas, where 
performance can bea matter of life and death: Future in- 
telligent robots with cross-lingual language capabilities 


have the potential to save lives. 


2.5 CHALLENGES FACING 
LANGUAGE TECHNOLOGY 


Although language technology has made considerable 
progress in the last few years, the current pace of tech- 
nological progress and product innovation is too slow. 
Widely-used technologies suchas the spelling and gram- 
mar correctors in word processors are typically mono- 
lingual, and are only available for a handful of languages. 
Online machine translation services, although useful 
for quickly generating a reasonable approximation of a 
document’s contents, are fraught with difficulties when 


highly accurate and complete translations are required. 


Technological progress 
needs to be accelerated. 


Due to the complexity of human language, modelling 
our tongues in software and testing them in the real 
world is a long, costly business that requires sustained 
funding commitments. Europe must therefore main- 
tain its pioneering role in facing the technology chal- 
lenges of a multiple-language community by inventing 
new methods to accelerate development right across the 
map. These could include both computational advances 


and techniques such as crowdsourcing. 
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2.6 LANGUAGE ACQUISITION 
IN HUMANS AND MACHINES 


To illustrate how computers handle language and why it 
is difficult to program them to use it, let’s look briefly at 
the way humans acquire first and second languages, and 


then see how language technology systems work. 


Humans acquire language skills in two different 
ways: learning from examples and learning the 
underlying language rules. 


Humans acquire language skills in two different ways: 
learning examples and learning the underlying language 
rules. Babies acquire a language by listening to the real 
interactions between its parents, siblings and other fam- 
ily members. From the age of about two, children pro- 
duce their first words and short phrases. This is only 
possible because humans have a genetic disposition to 
imitate and then rationalise what they hear. 

Learning a second language at an older age requires 
more effort, largely because the child is not immersed 
in a language community of native speakers. At school, 
foreign languages are usually acquired by learning gram- 
matical structure, vocabulary and spelling using drills 
that describe linguistic knowledge in terms of abstract 
rules, tables and examples. Learning a foreign language 


gets harder with age. 


The two main types of language technology 
systems ‘acquire’ language capabilities in a 
similar manner. 


Moving now to language technology, the two main 
types of language technology systems ‘acquire’ language 
capabilities in a similar manner. Statistical (or ‘data- 
driven’) approaches obtain linguistic knowledge from 


vast collections of concrete example texts. While it is 


sufficient to use text in a single language for training, 
e.g., a spell checker, parallel texts in two (or more) lan- 
guages have to be available for training a machine trans- 
lation system. The machine learning algorithm then 
“learns” patterns of how words, short phrases and com- 
plete sentences are translated. This statistical approach 
can require millions of sentences and performance qual- 
ity increases with the amount of text analysed. This is 
one reason why search engine providers are eager to col- 
lect as much written material as possible. Spelling cor- 
rection in word processors, and services such as Google 
Search and Google Translate all rely on statistical ap- 
proaches. The great advantage of statistics is that the ma- 
chine learns fast in continuous series of training cycles, 


even though quality can vary arbitrarily. 


The second approach to language technology and ma- 
chine translation in particular is to build rule-based 
systems. Experts in the fields of linguistics, computa- 
tional linguistics and computer science first have to en- 
code grammatical analyses (translation rules) and com- 
pile vocabulary lists (lexicons). This is very time con- 
suming and labour intensive. Some of the leading rule- 
based machine translation systems have been under con- 
stant development for more than twenty years. The 
great advantage of rule-based systems is that the experts 
have more detailed control over the language processing. 
This makes it possible to systematically correct mistakes 
in the software and give detailed feedback to the user, es- 
pecially when rule-based systems are used for language 
learning. But due to the high cost of this work, rule- 
based language technology has so far only been devel- 


oped for major languages. 


As the strengths and weaknesses of statistical and rule- 
based systems tend to be complementary, current re- 
search focuses on hybrid approaches that combine the 
two methodologies. However, these approaches have so 
far been less successful in industrial applications than in 


the research lab. 
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As we have seen in this chapter, many applications 
widely used in today’s information society rely heavily 
on language technology. Due to its multilingual com- 
munity, this is particularly true of Europe’s economic 
and information space. Although language technology 


has made considerable progress in the last few years, 


there is still huge potential in improving the quality of 
language technology systems. In the following, we will 
describe the role of Finnish in the European informa- 
tion society and assess the current state of language tech- 


nology for the Finnish language. 
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FINNISH IN THE EUROPEAN INFORMATION 
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3.1 GENERAL FACTS 


Finnish is the native language of approximately 4.8 mil- 
lion people living in Finland and the second language 
of 0.5 million Finns. Finnish is also spoken in Sweden, 


Estonia, Russia, the United States and Australia. 


Finnish is one of the official languages 
in the European Union. 


Finnish is one of the official languages in the European 
Union. The Finnish constitutional law and language law 
define Finnish and Swedish as the national languages of 
Finland. In addition to that, Finnish is an official mi- 
nority language in Sweden. (In 2011 mainly in North- 
ern and Central Sweden.) Besides Finnish and Swedish, 
three Sami languages (Northern SAmi, Inari SAmi and 
Skolt Sami), Romany, Karelian language and two differ- 
ent sign languages have long been used in Finland. From 
the 19% century onwards also Russian and Tatar speak- 
ing people have been living in Finland. Since the end of 
the 1970’s immigrants have arrived from Europe, Asia 
and Africa, and the amount of immigrant languages is 
somewhere around 100, the major ones being Russian, 
Estonian and Somali. 

The Finnish literary language has a relatively short his- 
tory. It has been used in religious literature and the 
church since the 16% century, and laws have been writ- 


ten in Finnish since the 18 century. Up until the 


19% century, Swedish was used in administration, edu- 
cation and literature. The foundation of contemporary 
Finnish was laid during the 19% century when Finnish 
became a sovereign language in all societal activity. 

Dialects are divided into two categories; the Western 
and the Eastern dialects. The Western dialects include 
the South-West dialects, Southern-Western middle di- 
alects, Tavastian dialects, Southern Ostrobothnian di- 
alect, Central and Northern Ostrobothnian dialects 
and the Perapohjola dialects. The Eastern dialects in- 
clude the Savonian dialects and the South-Eastern di- 
alects. The difference between the Eastern and Western 
dialects is mostly in the pronunciation and word forms 
(meijan, manna in the East while meindn, menna in the 
West) and partly in the vocabulary (vasta in the East, 
vibta in the West.) The differences between dialects are 
clear, and speakers from different areas can be identified 
by their intonation. However, the differences are minor 
enough to allow speakers of different dialects to under- 
stand each other. Urbanisation and other changes in the 
society have softened the dialects and smoothed out the 


most narrow and distinctive features. 


3.2 PARTICULARITIES OF THE 
FINNISH LANGUAGE 


Finnish is part of the Finno-Ugric language group and 
one of the Baltic Finnic languages. The other Baltic 


Finnic languages are Karelian, Ludic, Veps, Ingrian, 


Votic, Estonian, Livonian, Voro and Seto. These lan- 
guages do not contain grammatical gender or articles. 
One of the most distinctive features in Finnish is that 
the writing mainly corresponds to the pronunciation. 
The main word stress is on the first syllable. 

Finnish has a rich inflectional system. Words are divided 
into three main categories: 1) nouns and adjectives are 
inflected for case and number and adjectives agree with 
their head (isossa talossa [in a big house], isoissa taloissa 
[in big houses]), 2) verbs are inflected for person, tense 
and modus (sanon [I say], sanot [you say], han sanoo [he 
says], sanomme [we say], sanotte [you say], he sanovat 
[they say]; sanon [I say], sanoin [I said], olen sanonut [I 
have said], olin sanonut [I had said]; sanon [I say], sanoi- 
sin [I would say]) and 3) adpositions and particles are 
mainly uninflected. There are 15 grammatical cases of 
which accusative only occurs in personal pronouns and 
the pronoun kuka [who] (minut [me], meidat [us], kenet 
[whom]). 


Finnish has a rich inflectional system. 


Each noun in Finnish is capable of having some 
2,000 distinct forms and verbs more than 12,000 
forms. The number of distinct forms derives 
from the agglutinative nature of Finnish, ie. sev- 
eral layers of inflectional affixes can be stacked, 
e.g. halut+tut+imm+itlla+mmetko would express the 
verbal root for desiring and endings for expressing el- 
ements “desire, something that is, most, on, our, ques- 
tion”. 

New words are mostly formed with derivation and com- 
position. Approximately 10-15% out of index words 
in dictionaries are basic words, 20—30% derivatives and 


60-70% compounds. 


= Derivatives: kirja [book] — kirjasto [library], kirjaa- 
mo [registry], kirjallisuus [literature], kirjoittaa [to 
write], kirjanen [booklet], kirjallinen [literary] etc. 


= Compounds: maahanmuutto [immigration], kan- 
sanelakelaitos [Social Insurance Institution], yleisur- 


heilumaaottelu [international event in athletics]. 


Certain linguistic characteristics of Finnish are 
challenges for computational processing. 


In addition to the stacking of the endings, Finnish is 
characterised by a number of morphophonological al- 
ternations such as consonant gradation, vowel harmony, 
a number of vowel mutations at the junctures between 
stems and endings. Word forms are long because of in- 
flection but also because compound words are normally 
written together without hyphens or spaces. Com- 
pound words can be further compounded resulting in 
even longer compounds. 

The most usual order of constituents in a Finnish clause 
is SVX, Han osti kirjan. [He bought a book.] The word 
order, however, follows the information structure of the 
clause and can therefore be employed to denote the dis- 


tinction of old and new information: 


= Han osasi laksynsa. [He mastered his homework. ] 


= Osasi han laksynsa. [He did master his homework. ] 


Syntactic roles are marked using inflectional marking. 
Therefore the word order is relatively free, i. e., subjects 
and objects are identified by their case rather than their 


relative position in the sentence: 


= Poika osti kirjan. [The boy bought a book. ] 
= Kirjan poika osti. [It was a book that the boy bought. ] 


3.3 RECENT DEVELOPMENTS 


Finnish has a fairly short written history starting from 
religious texts translated from German in the beginning 
of the New Age. The literary norm of Finnish was, how- 


ever, not established until in the 19% century. Until 
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the Second World War, Finnish borrowed mostly from 
Swedish and German or Latin. The vocabulary has only 
a small proportion of original Finno-Ugric words. 

The Finnish vocabulary includes a large number of 
Baltic, German, Slavic and Scandinavian loan words 
from different historical periods. For centuries a strong 
influence came from Swedish (pankki < bank [bank], la- 
ki < lag [law], treenata < trana [to train]). Nowadays 
words are mostly borrowed from English (Jiisaus < leas- 
ing, meili < mail), although special languages also lend 
from other languages (pitsa [pizza], karate). It is typical 
for the loan words to assimilate quickly to the Finnish 
structure and inflection conventions. Loan words of- 
ten live side by side with the Finnish variants: tulostin 
~ printteri [printer]. 

A new kind of influence from English has lately been 
recognised. The usage of Finnish in some areas of life has 
been narrowed down, leaving Finnish less often used. 
This tendency can be more clearly seen in natural sci- 
ences and technology, but it is there also in other sci- 
entific forums. The scientific community is also more 
aware of the fact that Finnish requires more attention 
than during the past centuries. 

The relationship between spoken and written language 
is also in a state of change. It is usual to publish texts 
in the Internet that actually are speech. Conventions of 
speech are therefore moving towards becoming part of 


the written language much stronger than before. 


3.4 LANGUAGE CULTIVATION 
IN FINLAND 


The acts and degrees state that the language planning of 
Finnish is the task of the Institute for the Languages of 
Finland. The institute gives out recommendations, of- 
fers counselling, educates, and collects and administers 
up-to-date databases of Finnish. Counselling has long 


traditions and is widely known amongst Finns. Lan- 


guage planning in Finland is all the more moving to- 
wards counselling on the textual level, although details 
on spelling and inflections are issues where the Finns still 


ask for advice. 


The acts and degrees state that the language 
planning of Finnish is the task of the Institute for 
the Languages of Finland. 


The Finnish Terminology Centre TSK is one of the cen- 
tral developers of terminology in Finnish, and work on 
terminology is also carried out in several scientific soci- 
eties. At the onset of 2011, the University of Helsinki 
launched the project The Bank of Finnish terminology 
in Arts and Sciences, with the objective of enhancing the 
creation and wide use of Finnish scientific terms. 

Interest in the quality and intelligibility of the language 
used by the authorities has grown during the 21st cen- 
tury. Cooperating closely with the legislators, the Insti- 
tute for the Languages of Finland has made several ini- 
tiatives in suggesting improvements in the discourse of 


the authorities. 


3.5 LANGUAGE IN EDUCATION 


Approximately 56,000 children start in the Finnish 
comprehensive schools each year in an integrated nine- 
year school system. The Finnish language plays an im- 
portant part of the studies in all grades. The total 
amount of lesson hours is defined in the national decree, 
but how the lesson hours are divided between different 
grades is decided locally. During the nine years in the 
comprehensive school the Finnish students attend 1554 
hours teaching of their mother tongue and literature. 

Finland has taken part in all PISA cycles, in 2000, 2003, 
2006 and 2009. The results of the tests show that the 
basic education has been a Finnish success story, even 
if the difference in the level of performance of girls and 
boys is the largest of all PISA countries [8]. In 2009 with 
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reading literacy as the main focus area, the mean perfor- 
mance of Finnish students was ranked third, following 


the trend of all previous PISA cycles [9]. 


Finland has taken part in all PISA cycles, 
in 2000, 2003, 2006 and 2009. 


The Finnish language has been offered as one plausible 
explanation for the excellent results, because it is easy 
to read, and children learn to read subtitles on TV very 
early since there is no dubbing in the TV. Reading is also 
supported by other means, such as creating a dense net- 
work of libraries and a wide variety of newspapers made 
available for all age groups. 

During the three to four upper secondary education 
years, the students (aged 16-19) attend six mandatory 
courses and they can also choose three advanced courses 
in mother tongue and literature. The mother tongue is a 
mandatory subject in the matriculation examination af- 
ter which the students are eligible for higher education 
studies where they have two options to choose from, 
the more professionally oriented polytechnic education 
or the university education where the focus is mostly 
on scientific research. Approximately 36,000 students 
enrol in the polytechnics and 20000 in the universi- 
ties each year [10]. The curriculum of all 26 polytech- 
nics and 16 universities include mandatory courses in 


mother tongue and in communication. 


Language skills are a 
key qualification for education. 


The students in Finland study Finnish at the upper sec- 
ondary school level less than students in other OECD 
countries, and taking extra classes in Finnish language 
studies or literature is not very popular, even if the sub- 


ject is regarded as important. The work group behind 


the report Suomen kielen tulevaisuus (The future of the 
Finnish language) [11] recommends that the course tray 
should also include studies improving other that text 
production skills or literary studies, such as more formal 
and linguistic approaches to languages. 

Finnish can be studied as the major in 8 out of 
15 Finnish universities: the universities of Helsinki, 
Jyvaskyla, Oulu, Tampere, Turku, Vaasa, Eastern Fin- 
land, and Abo Akademi, and Finnish literature in the 
first six of these [12]. In several other universities it is 
possible to study individual courses of Finnish. The role 
of English in the universities overall has grown with the 
increasing number of international students but the lan- 
guage of instruction in the degree programmes in Fin- 


land studies is mostly Finnish [13]. 


3.6 INTERNATIONAL ASPECTS 


Until the late 20th century Finnish was a receiving lan- 
guage for influences from other languages in interna- 
tional settings. World literature, as well as scientific 
achievements has been available for the Finns through 
translations. Also translations of popular culture such 
as lyrics had a strong status in Finland until the 1990’s. 
A strong tradition of translating with a habit of read- 
ing and listening to translated language has thus been 
rooted into Finland. The last few decades have, how- 
ever, witnessed a change in this respect with the grow- 
ing importance of the internet multiplying the usage of 
texts and other cultural works in other languages than 
Finnish, most often English. 

Translating from Finnish into other languages has also 
been important for the Finns. Finnish has rarely been 
an option in international business contacts, nor sci- 
entific interaction, and translating Finnish source texts 
has always been necessary. Although Finnish is offered 
in several universities around the world, it is more of- 
ten studied rather for personal than professional rea- 


sons. With the increasing number of international 
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contacts, the situation of translating from Finnish has 
changed, since Finns nowadays use more often foreign 
languages, mostly English, in producing texts. Some 
large Finnish enterprises have chosen English as the con- 


cern/consolidated company language. 


Until the late 20th century Finnish was a receiving 
language for influences from other languages in 
international settings. World literature, as well as 
scientific achievements has been available 
for the Finns through translations. 


The status of Finnish faced a significant shift when Fin- 
land joined the European Union in 1995. For the first 
time in its history, Finnish became one of the offi- 
cial languages of an international organisation. While 
Finnish is not one of the working languages in the EU, 
Finland participates in the activities in the EU as well as 
in other international settings through translation and 
interpretation [11]. The number of texts and genres 
translated are very different from the translation activ- 
ities in the past, as texts in the EU are translated into 
Finnish from the working languages, most often En- 
glish. Among the genres translated, the EU legislation 
enjoys a special status. When the Finns wish to con- 
tact the institutions of the EU, the texts are translated 
from Finnish into the working languages, but the num- 
ber of texts translated from Finnish into other languages 
is quite small. 

Speeches of the Finnish representatives and officials are 
interpreted from Finnish or into Finnish. Interpreta- 
tion services have, however, not been used as often as 
would have been possible, especially in the meetings the 
Finnish officials participate in. In 2003 the EU changed 
the way the costs for interpretations are covered by the 
member states, and it has since been possible to finance 
other costs by saving in the interpretation costs, an op- 


tion that Finland chose to take. 


The fact that Finns use less interpretation services than 
before might have an impact on how they tend to react 
to the EU translations in general. Finns tend to read the 
texts prepared for the meetings in English, and they of- 
ten choose to speak English in them. Half of the officials 
that answered a poll on interpretation gave a negative 
answer to a question whether they get interpretation ser- 
vices as often as they would wish. The same officials con- 
sider the Finnish versions of the EU texts as harder to 
understand than the versions of the same texts in other 
languages, or similar texts written in Finnish [14]. Lin- 
guistic problems occur in the national implementation 
process of the EU acts [15]. A network for translation 
of the EU acts has been established to enhance cooper- 


ation between the EU translators EU and the officials. 


An issue in the question of whether to request interpre- 
tation in the EU or not can possibly be the fact that 
knowledge of foreign languages is very highly appreci- 
ated in Finland. The media pay attention to the lan- 
guage skills of the politicians, such as ministers of parlia- 
ment and how they cope with speaking English. Using 
Finnish is easily regarded as not being competent in the 
particular foreign language instead of a sign of appreci- 
ation towards Finnish and its status as one of the ofh- 
cial languages in the EU. The bond between the usage 
of Finnish and its development does apparently not ap- 
pear as relevant to those choosing English for pragmatic 
reasons: the more specialists use Finnish, the better and 
more idiomatic expressions are available for its users — 


and vice versa. 


Language technology could be more widely employed 
than it currently is. Large and up-to-date databases of 
terms and phrases in administration with solid quality 
assurance are an example of a welcomed resource to both 
translators and interpreters. Machine translation into 
or from Finnish would require more effort to reach a 
level of quality that would benefit translation activities 


in practice. 
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3.7 FINNISH ON THE INTERNET 


Between 2000 and 2009, the number of households us- 
ing computers at home in Finland has risen steadily from 
47% in 2000 to 81% in 2009 [16]. For the wired broad- 
band subscriptions, Finland ranked 15 out of 31 coun- 
tries in 2009, with the total of 1,407,500 subscriptions 
[17] and for the wireless subscriptions, Finland ranked 
20 out of 29 countries, a total of 1,182,300 subscriptions 
[18]. 


There were almost 1.5 million broadband 
subscriptions and more than a million wireless 
subscriptions in Finland in 2009. 


The Finns are active users of the Internet. According 
to Statistics Finland 86 per cent of the population use 
the Internet, and the elders seem to pace up in this de- 
velopment surprisingly fast, the growth in the statis- 
tics for the age groups 64 to 74 was 10% in one year. 
Most Finns (72%) use the Internet on a daily basis for 
banking (76%), for maintaining social contacts via email 
(77%), and for looking up information on products and 
goods (74%). It is also usual to search for information 
on the authorities and the services provided, and more 
and more people send forms filled with information re- 
quired for the authorities via the Internet. 74 per cent 
of the population watch news or TV programmes in the 
Internet [19]. 

The National Library of Finland documents the con- 
tents of the Finnish web sites. This task is statutory. 
The library has also as one of its tasks to digitise printed 
matter and it reports that the number of digitised pages 
in 2010 was 1,064,000. The FinElib library containing 
electronic articles and other licensed materials was dur- 
ing one year visited 68,900,000 times with 196,000,000 
items downloaded by the users [20]. 

Social media is rapidly gaining ground in Finland. In 
2010, 42% of Finns aged 16 to 74 have registered as 


a user in at least one of the community based applica- 
tions (Facebook, Twitter etc.) Two thirds of them visit 
daily. According to Google Analytics, the most popu- 
lar search all in all since 2004 in Finland is Facebook, 
with YouTube on the second place followed by two lo- 
cal tabloid papers Iltalehti and Iltasanomat. Discussion 
groups like irc and suomi24 are also popular with fre- 
quent searches at all times. Alexa reports Google as the 
top site in Finland, which means that the other search 


engines have not gained much ground [21]. 


The Finnish Communication Regulatory Authority 
(Ficora) keeps the records of the registration of .fi- 
domains in Finland, and it is possible to follow the de- 
velopment of the registrations within a certain period of 
time. For example in January 2000, about 10 years ago, a 
total of 357 new .fi-domains were registered, whereas in 
2011, a total of 164 new .fi-domains were registered on 
April Sth alone, i. e., during one day only. There are now 
more than 270,000 registered .fi-domains. Based on the 
Google-results (April 5, 2011) the number of other web 
sites besides the .fi-domains is approximately 110,000. 
That would add up to an estimate of almost 300,000 


Finnish web sites altogether. 


For Language Technology, the growing importance of 
the Internet is important in two ways. On the one hand, 
the large amount of digitally available language data rep- 
resents a rich source for analysing the usage of natural 
language, in particular by collecting statistical informa- 
tion. On the other hand, the Internet offers a wide range 


of application areas for Language Technology. 


The most commonly used web application is certainly 
Web Search, which involves the automatic processing of 
language on multiple levels, as we will see in more de- 
tail the second part of this paper. It involves sophis- 
ticated Language Technology, differing for each lan- 
guage. For Finnish, this includes coping with polysemy 
i.e., words denoting the same thing, e. g., kuusi (six) or 


kuusi (spruce tree). 
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It is an expressed political aim in Finland as well as other 
European countries to ensure equal opportunities for 
everyone. As early as 1998 the Sitra, the Finnish Inno- 
vation Fund, published a report “Kohti esteeténta tie- 
toyhteiskuntaa” (Towards a barrier-free information so- 
ciety), stating that the information society shall be open 
for all citizens who wish to access services, information 
and entertainment, act interactively in the internet, par- 
ticipate in the decision making and the society, commu- 
nicate and participate also while mobile, develop one- 
self, and work at any time and in any place. The report 
highlights the possibilities of technology in providing 
support for the disabled in coping with everyday tasks 
but it also states that in Finland the know-how in 1997 
was still scattered and not enough practical solutions 
and products emerge to answer the demand both in the 
national and the international markets today. Language 
technology has provided valuable aids such as speech 
synthesizer and Braille screen, an optical reader with a 
text-to-speech application will make it possible for a vi- 
sually impaired person to read or listen to newspapers. 


Making the barrier-free society happen requires politi- 


cal commitment, cooperation and interaction between 
the relevant players [22]. 

The public agencies need to make sure that their web 
sites and internet services can be used by the disabled 
without restrictions. User-friendly language technology 
tools offer the principal solution to satisfy this regula- 
tion, for example by offering speech synthesis for the 
blind. 

Internet users and providers of web content can also 
profit from Language Technology in less obvious ways, 
e. g., if it is used to automatically translate web contents 
from one language into another. Considering the high 
costs associated with manually translating these con- 
tents, comparatively little usable Language Technology 
is developed and applied, compared to the anticipated 
need. This may be due to the complexity of the Finnish 
language and the number of technologies involved in 
typical Language Technology applications. In the next 
chapter, we will present an introduction to Language 
Technology and its core application areas as well as an 
evaluation of the current situation of Language Tech- 


nology support for Finnish. 
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4 


LANGUAGE TECHNOLOGY SUPPORT FOR 


FINNISH 


Language technologies are software systems designed to 
handle human language and are therefore often called 
“human language technology”. Human language comes 
in spoken and written forms. While speech is the old- 
est and in terms of human evolution the most natural 
form of language communication, complex information 
and most human knowledge is stored and transmitted in 
written texts. Speech and text technologies process or 
produce these different forms of language, though they 
both use dictionaries and rules of grammar and seman- 
tics. This means that language technology (LT) links 
language to various forms of knowledge, independently 
of the media (speech or text) it is expressed in. Figure 1 
illustrates the LT landscape. When we communicate, 
we combine language with other modes of communica- 
tion and information media — for example speaking can 
involve gestures and facial expressions. Digital texts link 
to pictures and sounds. Movies may contain language 
in spoken and written form. In other words, speech and 
text technologies overlap and interact with other tech- 
nologies that facilitate processing of multimodal com- 
munication and multimedia documents. 

In the following, we will discuss the main application 
areas of language technology, i.e., language checking, 
web search, speech technology, and machine transla- 
tion. This includes applications and basic technologies 


such as 


= spelling correction 


= authoring support 


= computer-assisted language learning 
= information retrieval 

= information extraction 

= text summarisation 

™ question answering 

= speech recognition 


= speech synthesis 


Language technology is an established area of research 
with an extensive set of introductory literature. The in- 
terested reader is referred to the following references: 
[23, 24, 25, 26, 27]. 

Before discussing the above application areas, we will 


shortly describe the architecture of a typical LT system. 


4.| APPLICATION 
ARCHITECTURES 


Software applications for language processing typically 
consist of several components that mirror different as- 
pects of language. While such applications tend to be 
very complex, figure 2 shows a highly simplified archi- 
tecture of a typical text processing system. The first three 
modules handle the structure and meaning of the text 


input: 


1. Pre-processing: cleans the data, analyses or removes 


formatting, detects the input language, and so on. 
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1: Language technology in context 


2. Grammatical analysis: finds the verb, its objects, 
modifiers and other sentence elements; detects the 


sentence structure. 


3. Semantic analysis: performs disambiguation (i.e., 
computes the appropriate meaning of words in a 
given context); resolves anaphora (i. e., which pro- 
nouns refer to which nouns in the sentence) and 
substitute expressions; represents the meaning of the 


sentence in a machine-readable way. 


After analysing the text, task-specific modules can per- 
form other operations, such as automatic summarisa- 
tion and database look-ups. 

In the remainder of this section, we firstly introduce 
the core application areas for language technology, and 
follow this with a brief overview of the state of LT re- 
search and education today, and a description of past 


and present research programmes. Finally, we present 


Input Text 
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an expert estimate of core LT tools and resources for 
Finnish in terms of various dimensions such as availabil- 
ity, maturity and quality. The general situation of LT 
for the Finnish language is summarised in a matrix (fig- 
ure 7). LT support for Finnish is also compared to other 


languages that are part of this series. 


4.2 CORE APPLICATION AREAS 


In this section, we focus on the most important LT tools 
and resources, and give an overview of LT activities in 
Finland. Tools and resources that are boldfaced in the 
text can also be found in figure 7 (p. 65) at the end of 


this chapter. 
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2: A Typical Text Processing Architecture 


4.2.1 Language Checking 


Anyone who has used a word processor knows that a 
spelling checker highlights spelling mistakes and pro- 
poses corrections. The first spelling correction programs 
compared a list of extracted words against a dictionary 
of correctly spelled words. Today these programs are 
far more sophisticated. Using language-dependent algo- 
rithms for grammatical analysis, they detect errors re- 
lated to morphology (e. g., plural formation) as well as 
syntax—related errors, such as a missing verb or a conflict 
of verb-subject agreement (e. g., me *kirjoittaa kirjeen [a 
similar concept in English would be she *write a letter)). 
But most spell checkers will not find any errors in the 


following text [28]: 


I have a spelling checker, 
It came with my PC. 
It plane lee marks four my revue 


Miss steaks aye can knot sea. 


Handling these kinds of errors usually requires an anal- 
ysis of the context. For example: if a word needs to be 


written in upper case in Finnish or not: 


= Muista ottaa kaneli mukaan. 
[Remember to take the cinnamon with you. ] 
= Muista ottaa Kaneli mukaan. 


[Remember to take Kaneli with you. ] 


This type of analysis either needs to draw on language- 


specific grammars laboriously coded into the software 


by experts, or on a statistical language model. In this 
case, a model calculates the probability of a particular 
word as it occurs in a specific position (e. g., between 
the words that precede and follow it). For example, ka- 
neli is a much more probable as a noun than a proper 
noun Kaneli. A statistical language model can be auto- 
matically created by using a large amount of (correct) 
language data (called a text corpus). Most of these two 
approaches have been developed around data from En- 
glish. Neither approach can transfer easily to Finnish be- 
cause the language has a flexible word order, unlimited 


compound building and a richer inflection system. 


The use of language checking is not limited 
to word processors; it also applies 
to authoring support systems. 


Language checking is not limited to word processors; 
it is also used in “authoring support systems’, i. e., soft- 
ware environments in which manuals and other docu- 
mentation are written to special standards for complex 
IT, healthcare, engineering and other products. Fear- 
ing customer complaints about incorrect use and dam- 
age claims resulting from poorly understood instruc- 
tions, companies are increasingly focusing on the qual- 
ity of technical documentation while targeting the in- 
ternational market (via translation or localisation) at the 
same time. Advances in natural language processing 
have led to the development of authoring support soft- 


ware, which helps the writer of technical documenta- 


= ect) ) 


.y 


3: Language checking (top: statistical; bottom: rule-based) 
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tion use vocabulary and sentence structures that are con- 
sistent with industry rules and (corporate) terminology 
restrictions. 

Finnish has a history of several small Finnish compa- 
nies and Language Service Providers developing prod- 
ucts based on various language models. Finnish is a 
challenging language to model, or as Antti Arppe put 
it in 2002: “Whereas in English one can in principle 
create a prototypical language engineering tool such as 
a simple spell-checker by merely listing and compress- 
ing the most common 100,000 words or so, in Finnish 
one would need to list tens if not hundreds of millions 
of word forms to create a speller with comparable coy- 
erage using the same technique.” [37] Since the late 
1980’s, there has been a series of language proofing tools 
from available from Kielikone, nowadays specializing in 
dictionaries, Connexor specializing in language analysis 
tools, Gurusoft specializing in SOM-applications, and 
Lingsoft offering a wide selection of tools, including hy- 
phenation and proofreading for Finnish. 

Besides spell checkers and authoring support, language 
checking is also important in the field of computer- 
assisted language learning. And language checking 
applications also automatically correct search engine 


queries, e. g., in Google’s Did you mean... suggestions. 


4.2.2 Web Search 


Searching the Web, intranets or digital libraries is proba- 
bly the most widely used yet largely underdeveloped lan- 
guage technology application today. The Google search 
engine, which started in 1998, now handles about 80% 
of all search queries [30]. The verb guuglata is used in 
everyday speech in Finnish although there is no conven- 
tional way to spell it yet. The Google search interface 
and results page display has not significantly changed 
since the first version. Yet in the current version, Google 
offers spelling correction for misspelled words and has 


now incorporated basic semantic search capabilities that 


can improve search accuracy by analysing the meaning 
of terms in a search query context [31]. The Google suc- 
cess story shows that a large volume of available data and 
efficient indexing techniques can deliver satisfactory re- 
sults for a statistically-based approach. 

For more sophisticated information requests, it is es- 
sential to integrate deeper linguistic knowledge to se- 
mantic analysis. Experiments using lexical resources 
such as machine-readable thesauri or ontological lan- 
guage resources (e. g., WordNet for English or the equiv- 
alent Finnish FinnWordNet) have demonstrated im- 
provements in finding pages using synonyms of the orig- 
inal search terms, such as atomienergia [atomic energy], 
ydinvoima [atomic power] and ydinenergia [nuclear en- 


ergy], or even more loosely related terms. 


The next generation of search engines will have 
to include much more sophisticated language 
technology. 


The next generation of search engines will have to in- 
clude much more sophisticated language technology, in 
particular in order to deal with search queries consisting 
of a question or other sentence type rather than a list of 
keywords. For the query, “Give mea list of all companies 
that were taken over by other companies in the last five 
years,’ the LT system needs to analyse the sentence syn- 
tactically and semantically as well as provide an index to 
quickly retrieve relevant documents. A satisfactory an- 
swer will require syntactic parsing to analyse the gram- 
matical structure of the sentence and determine that the 
user wants companies that have been acquired, not com- 
panies that acquired other companies. For the expres- 
sion last five years, the system needs to determine the rel- 
evant years. And, the query needs to be matched against 
a huge amount of unstructured data to find the piece 
or pieces of relevant information the user wants. This 


is called “information retrieval”, and involves searching 
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4: Web Search 


and ranking relevant documents. To generate a list of 
companies, the system also needs to recognise a particu- 
lar string of words in a document represents a company 


name, using a process called named entity recognition. 


A more demanding challenge is matching a query in 
one language with documents in another language. 
Cross-lingual information retrieval involves automati- 
cally translating the query into all possible source lan- 
guages and then translating the results back into the 
user’s target language. 

Now that data is increasingly found in non-textual for- 
mats, there is a need for services that deliver multime- 
dia information retrieval by searching images, audio files 
and video data. In the case of audio and video files, 
a speech recognition module must convert the speech 
content into text (or into a phonetic representation) 
that can then be matched against a user query. 

In Finland, there are few small and medium size enter- 
prises to actively develop and apply search technologies 
at the moment, although Gurusoft specialises in apply- 


ing language independent Self-organizing maps (SOM 


methods) to information retrieval tasks, but the product 
Docunaut is designed to apply the method in searches 
within the intranets of their customers instead of the 
world wide web. At present there are no ongoing large- 


scale Finnish language search engine projects. 


4.2.3 Speech Technology 


Speech interaction is one of many application areas that 
depend on speech technology, i. e., technologies for pro- 
cessing spoken language. Speech interaction technol- 
ogy is used to create interfaces that enable users to inter- 
act in spoken language instead of using a graphical dis- 


play, keyboard and mouse. 


Speech technology is the basis for creating 
interfaces that allow a user to interact with spoken 
language instead of a graphical display, 
keyboard and mouse. 


Today, these voice user interfaces (VUI) are used for par- 


tially or fully automated telephone services provided by 
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companies to customers, employees or partners. Busi- 
ness domains that rely heavily on VUIs include bank- 
ing, supply chain, public transportation, and telecom- 
munications. Other uses of speech interaction technol- 
ogy include interfaces to car navigation systems and the 
use of spoken language as an alternative to the graphical 
or touchscreen interfaces in smartphones. 

Speech interaction technology comprises four tech- 


nologies: 


1. Automatic speech recognition (ASR) determines 
which words are actually spoken in a given sequence 


of sounds uttered by a user. 


2. Natural language understanding analyses the syntac- 
tic structure of a user’s utterance and interprets it ac- 


cording to the system in question. 


3. Dialogue management determines which action to 


take given the user input and system functionality. 


4. Speech synthesis (text-to-speech or TTS) trans- 


forms the system’s reply into sounds for the user. 


One of the major challenges of ASR systems is to ac- 
curately recognise the words a user utters. This means 
restricting the range of possible user utterances to a 
limited set of keywords, or manually creating language 
models that cover a large range of natural language ut- 
terances. Using machine learning techniques, language 
models can also be generated automatically from speech 
corpora, i.e., large collections of speech audio files and 
text transcriptions. Restricting utterances usually forces 
people to use the voice user interface in a rigid way and 
can damage user acceptance; but the creation, tuning 
and maintenance of rich language models will signifi- 
cantly increase costs. VUIs that employ language mod- 
els and initially allow a user to express their intent more 
flexibly — prompted by a How may I help you? greeting 
— tend to be automated and are better accepted by users. 
Companies tend to use utterances pre-recorded by pro- 


fessional speakers for generating the output of the voice 


user interface. For static utterances where the wording 
does not depend on particular contexts of use or per- 
sonal user data, this can deliver a rich user experience. 
But more dynamic content in an utterance may suffer 
from unnatural intonation because different parts of au- 
dio files have simply been strung together. Today’s TTS 
systems are getting better (though they can still be op- 
timised) at producing natural-sounding dynamic utter- 


ances. 


Interfaces in the market for speech technology have 
been considerably standardised during the last decade in 
terms of their various technology components. There 
has also been strong market consolidation in speech 
recognition and speech synthesis. The national markets 
in the G20 countries (economically resilient countries 
with high populations) have been dominated by just 
five global players, with Nuance (USA) and Loquendo 
(Italy) being the most prominent players in Europe. In 
2011, Nuance announced the acquisition of Loquendo, 


which represents a further step in market consolidation. 


Research in speech technology has been undertaken in 
Finland as early as the 1960s, with some results having 
an international renown or impact such as the portable 
Synte 2 speech synthesizer, developed by the Acoustics 
Laboratory in the 1970s and the phonetic typewriter in 
the 1980s, both developed at the University of Technol- 
ogy (currently Aalto University). There have also been 
some individual speech products on the market since 
the early 1990s; however, their clientele have been lim- 
ited mainly to special groups such as the visually im- 


paired. 


After the turn of the millennium a clear change has been 
witnessed. Both the public and the private sectors have 
embarked on major research and development projects 
in speech technology, which are starting to bear fruit — 
there now exist several basic technological solutions for 
both speech recognition and synthesis of Finnish that 


are on par with any language. Most speech technology 
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5: Speech-based dialogue system 


companies working on a global level offer both TTS and 
ASR for Finnish. Two Finnish companies (Bitlips Oy 
and Timehouse Oy) offer Finnish TTS. Bitlips also has 
English, Finland Swedish and Welsh synthesis. Ling- 
soft Oy and Suomen Puheentunnistus Oy both have 
Finnish ASR systems and provide VUI services for sev- 


eral Finnish corporations. 


There are currently several major research projects on 
speech on both TTS and ASR in Finland. The bulk of 
the research is done at Aalto University, University of 
Helsinki, Tampere University of Technology. The main 
industrial contributor to speech research in Finland has 


traditionally been Nokia. 


Regarding dialogue management technology and 
know-how, there exist no SMEs offering products in 
these areas. Finally, within the domain of Speech In- 
teraction, a genuine market for the linguistic core tech- 
nologies for syntactic and semantic analysis does not 


exist yet. 


Looking ahead, there will be significant changes due to 
the spread of smartphones as a new platform for man- 
aging customer relationships in addition to fixed tele- 
phones, the Internet and e-mail. This will also affect 
how speech technology is used. In the long run, there 
will be fewer telephone-based VUIs and spoken lan- 
guage will play a far more central role as a user-friendly 
input for smartphones. 


This will be largely driven 


by stepped improvements in the accuracy of speaker- 


independent speech recognition via speech dictation 
services already offered as centralised services to smart- 


phone users. 


4.2.4 Machine Translation 


The idea of using digital computers to translate natural 
languages goes back to 1946 and was followed by sub- 
stantial funding for research during the 1950s and again 
in the 1980s. Yet machine translation (MT) still can- 
not meet its initial promise of across-the-board auto- 


mated translation. 


At its basic level, Machine Translation simply 
substitutes words in one natural language with 
words in another language. 


The most basic approach to machine translation is to au- 
tomatically replace the words ina text in one natural lan- 
guage by words in another language. This can be useful 
in subject domains that have a very restricted, formu- 
laic language such as weather reports. But to produce 
a good translation of less standardised texts, larger text 
units (phrases, sentences, or even whole passages) need 
to be matched to their closest counterparts in the target 
language. The major difficulty is that human language 
isambiguous. Ambiguity creates challenges on multiple 


levels, such as word sense disambiguation at the lexical 
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level (a jaguar is a brand of car or an animal) or the as- 


signment of case on the syntactic level, for example: 


= Polisi tarkkaili miesta maella. 


[The policeman observed the man on the hill. ] 


= Polisi tarkkaili miesta kiikarilla. 


[The policeman observed the man with binoculars. ] 


One way to build an MT system is to use linguistic rules. 
For translations between closely related languages, a di- 
rect substitution translation may be feasible in cases like 
the above example. However, rule-based (or linguis- 
tic knowledge-driven) systems often analyse the input 
text and create an intermediary symbolic representation 
from which the text can be generated into the target lan- 
guage. The success of these methods is highly dependent 
on the availability of extensive lexicons with morpho- 
logical, syntactic, and semantic information, and large 
sets of grammar rules carefully designed by skilled lin- 
guists. This is a very long and therefore costly process. 

In the late 1980s when computational power increased 
and became cheaper, there was more interest in statis- 
tical models for machine translation. Statistical mod- 
els are derived from analysing bilingual text corpora, 
such as the Europarl parallel corpus, which contains 
the proceedings of the European Parliament in 21 Eu- 
ropean languages. Given enough data, statistical MT 
works well enough to derive an approximate meaning 
of a foreign language text by processing parallel ver- 
sions and finding plausible patterns of words. But unlike 
knowledge-driven systems, statistical (or data-driven) 
Data- 


driven MT is advantageous because less human effort is 


MT often generates ungrammatical output. 


required, and it can also cover special particularities of 
the language (e.g., idiomatic expressions) that can get 
ignored in knowledge-driven systems. 

The strengths and weaknesses of knowledge-driven and 
data-driven machine translation tend to be complemen- 


tary, so that nowadays researchers focus on hybrid ap- 


proaches that combine both methodologies. One ap- 
proach uses both knowledge-driven and data-driven sys- 
tems together with a selection module that decides on 
the best output for each sentence. However, results for 
sentences longer than say 12 words will often be far from 
perfect. A better solution is to combine the best parts of 
each sentence from multiple outputs; this can be fairly 
complex, as corresponding parts of multiple alternatives 


are not always obvious and need to be aligned. 


Machine Translation is particularly 
challenging for the Finnish language. 


Finland missed out on first generation machine transla- 
tion, but caught the second wave of rule-based machine 
translation in the 80’s. A long-term nationally funded 
R&D project Kielikone first developed the necessary 
Finnish analysis tools and used them to build a rule- 
based Finnish-to-English MT system in the 90’s that 
subsequently became a commercial product. IBM Fin- 
land researched English-to-Finnish transfer based on 
the IBM English parser at the turn of the 90’s but did 
not reach product stage. Sunda, a newer rule based 
system developed from the Kielikone technology base, 
now sells relatively good quality English-to-Finnish 
MT. Google and Microsoft provide statistical MT for 
Finnish, but the quality remains poor, due to the com- 
plexity of Finnish morphology and the free word or- 
der which current statistical MT is poorly equipped for. 
The technical university has a group working on statis- 
tical language modelling of Finnish, including Finnish 
morphology and SMT. 

There is still a huge potential for improving the qual- 
ity of MT systems. The challenges involve adapting lan- 
guage resources to a given subject domain or user area, 
and integrating the technology into workflows that al- 
ready have term bases and translation memories. An- 


other problem is that most of the current systems are 
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6: Machine translation (left: statistical; right: rule-based) 


English-centred and only support a few languages from 
and into Finnish. This leads to friction in the translation 
workflow and forces MT users to learn different lexicon 
coding tools for different systems. 

Evaluation campaigns help compare the quality of MT 
systems, the different approaches and the status of the 
systems for different language pairs. Figure 7 (page 
26), which was prepared during the EC Euromatrix+ 
project, shows the pair-wise performances obtained for 
22 of the 23 official EU languages. (Irish was not com- 
pared.). The results are ranked according to a BLEU 
score, which indicates higher scores for better transla- 
tions [32]. A human translator would achieve a score of 
around 80 points. 

The best results (in green and blue) were achieved by lan- 
guages that benefit from a considerable research effort in 
coordinated programs and from the existence of many 
parallel corpora (e. g., English, French, Dutch, Spanish 
and German). The languages with poorer results are 
shown in red. These languages either lack such develop- 
ment efforts or are structurally very different from other 


languages (e. g., Hungarian, Maltese and Finnish). 


4.3 OTHER APPLICATION AREAS 


Building language technology applications involves a 
range of subtasks that do not always surface at the level 


of interaction with the user, but they provide signifi- 


cant service functionalities “under the hood” of the sys- 
tem in question. They all form important research issues 
that have now evolved into individual sub-disciplines of 


computational linguistics. 


Language technology applications often provide 
significant service functionalities “under the hood” 
of larger software systems. 


Question answering, for example, is an active area of re- 
search for which annotated corpora have been built and 
scientific competitions have been initiated. The con- 
cept of question answering goes beyond keyword-based 
searches (in which the search engine responds by de- 
livering a collection of potentially relevant documents) 
and enables users to ask a concrete question to which the 


system provides a single answer. For example: 


Question: How old was Neil Armstrong when he 
stepped on the moon? 


Answer: 38. 


While question answering is obviously related to the 
core area of web search, it is nowadays an umbrella term 
for such research issues as what different types of ques- 
tions there are, and how they should be handled; how a 
set of documents that potentially contain the answer can 


be analysed and compared (do they provide conflicting 
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answers?); and how specific information (the answer) 
can be reliably extracted from a document without ig- 
noring the context. 

Question answering is in turn related to information ex- 
traction (IE), an area that was extremely popular and in- 
fluential when computational linguistics took a statisti- 
cal turn in the early 1990s. IE aims to identify specific 
pieces of information in specific classes of documents, 
such as detecting the key players in company takeovers 
as reported in newspaper stories. Another common sce- 
nario that has been studied is reports on terrorist inci- 
dents. The problem here is to map the text to a template 
that specifies the perpetrator, target, time, location and 
results of the incident. Domain-specific template-filling 
is the central characteristic of IE, which makes it another 
example of a “behind the scenes” technology that forms 
a well-demarcated research area that in practice needs to 


be embedded into a suitable application environment. 


For the Finnish language, research in most text 
technologies is much less developed than for the 
English language. 


Text summarisation and text generation are two bor- 
derline areas that can act either as standalone applica- 
tions or play a supporting role “under the hood”. Sum- 
marisation attempts to give the essentials of a long text 
in a short form, and is one of the features available in 
Microsoft Word. It mostly uses a statistical approach to 
identify the “important” words in a text (i. e., words that 
occur very frequently in the text in question but less fre- 
quently in general language use) and determine which 
sentences contain the most of these “important” words. 
These sentences are then extracted and put together to 
create the summary. In this very common commercial 
scenario, summarisation is simply a form of sentence ex- 
traction, and the text is reduced to a subset of its sen- 
tences. An alternative approach, for which some re- 


search has been carried out, is to generate brand new 


sentences that do not exist in the source text. This re- 
quires a deeper understanding of the text, which means 
that so far this approach is far less robust. On the whole, 
a text generator is rarely used as a stand-alone appli- 
cation but is embedded into a larger software environ- 
ment, such as a clinical information system that collects, 
stores and processes patient data. Creating reports is just 
one of many applications for text summarisation. 

For the Finnish language, research in these text tech- 
nologies is much less developed than for the English 
language. Question answering, information extraction, 
and summarisation have been the focus of numerous 
open competitions in the USA since the 1990s, pri- 
marily organised by the government-sponsored organ- 
isations DARPA and NIST. These competitions have 
significantly improved the start-of-the-art, but their 
focus has mostly been on the English language. As 
a result, there are hardly any annotated corpora or 
other special resources needed to perform these tasks in 
Finnish. When summarisation systems use purely sta- 
tistical methods, they are largely language-independent 
and a number of research prototypes are available. For 
text generation, reusable components have traditionally 
been limited to surface realisation modules (generation 
grammars) and most of the available software is for the 


English language. 


4.4 EDUCATIONAL 
PROGRAMMES 


Language technology is a very interdisciplinary field 
that involves the combined expertise of linguists, com- 
puter scientists, mathematicians, philosophers, psy- 
cholinguists, and neuroscientists among others. Lan- 
guage Technology has been taught as a major subject at 
the University of Helsinki since 1994, and it has been 
active in cooperation with other universities offering 


courses in the neighbouring fields on both national and 
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international level. The national level includes the es- 
tablishment of KIT Network for Language Technol- 
ogy Studies in 2001 with 10 universities all over Fin- 
land participating in course exchange and a common 
syllabus. The formal agreement between the universi- 
ties ended in 2007 but the students enrolled in Finnish 
universities can apply for a grant from their faculties 
to take Language Technology courses within the net- 
work. The KIT Network universities include Aalto 
University, University of Eastern Finland, University of 
Helsinki, University of Jyvaskyla, University of Tam- 
pere, Technical University of Tampere, University of 
Turku, University of Vaasa, University of Oulu, and Abo 
Akademi in Turku. 


During 2006-2009 the students with a sufficient 
knowledge in Language Technology could, after com- 
pleting their BA, apply for a special master’s degree in 
Language Technology at the University of Helsinki. 
The master’s degree programme offered an option to 
focus on language technology, speech technology or 
translation studies as a major. In 2009 the formal Mas- 
ter’s degree programme came to end with the new organ- 
isation structures taking place, and it is now possible to 
apply to study advanced studies offered by the language 


technology subject towards an MA in language technol- 
ogy. 


The Graduate School of Language Technology in Fin- 
land (the KIT Graduate School) was a multidisci- 
plinary national graduate school, functioning during 
2004-2009 as part of the emerging network of gradu- 
ate schools of language technology in the Nordic coun- 
tries, Nordic Graduate School of Language Technol- 
ogy, NGSLT. The KIT Graduate School was granted 
five PhD student positions for two four-year periods 
2002-2005 and 2006-2009. From the beginning of 
2010 the graduate school merged with LANGNET, the 
Finnish doctoral programme in language studies, and 


became one of its programmes. 


The education of language technology researchers in 
sufficient numbers is nevertheless a prerequisite for the 
diverse research and thus the development of successful 


commercial activity [33]. 


A.5 NATIONAL PROJECTS AND 
EFFORTS 


The most important agencies for research funding 
in Finland are the Academy of Finland financed 
by the Ministry of Education and Culture and the 
Finnish Funding Agency for Technology and Innova- 
tion (Tekes) financed by the Ministry of Trade and In- 
dustry [34]. Sitra, The Finnish National Fund for Re- 
search and Development had provided funding for the 
MT project Kielikone in the 1980’s Public support from 
TEKES has been an important source of funding for 
basic research especially through two large technology 
programs, USIX (User-Oriented Information Technol- 
ogy) 1999-2002 and FENIX (Interactive Computing) 
2003-2007. 

The USIX technology program aimed at raising the 
needs of the users and the consumers of products and 
technologies by providing Finnish enterprises and re- 
search institutions with funding for improving the qual- 
ity of the products and technologies. Some of the core 
technologies identified in the program were Finnish 
speech recognition, large data management and search 
interfaces. The program financed 181 projects with 
the total volume of 84 MEUR (44 MEUR provided 
by Tekes) of which 29% were research projects. Ex- 
amples of NLP USIX projects are WEBSOM devel- 
oping Self-Organizing Map (SOM) technologies and 
GILTA on Managing Large Text Masses, INTER- 
ACT, STT Speech-to-Text (research and development 
of the phonemic speech recognition for Finnish), the 
joint project for Finnish speech technology SuoPuhe, 


Noise Robust Multilingual Speech Recognition, Dic- 
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tionaries and language checking tools, and Multilingual 
adaptative translation knowledge base, led jointly by 
most Finnish universities and several enterprises. Sev- 
eral commercial products developed within the USIX 


framework are available in the market today [35]. 


The NLP projects carried out within the FENIX tech- 
nology program include FENIX 4M (Mobile and Mul- 
tilingual Maintenance Man) and FinnONTO (Seman- 
tic Web Ontologies) at the University of Helsinki, New 
methods and applications in speech processing and 
Search-in-a-Box (University of Turku), Rich semantic 
media for personal and professional users (VT'T Tech- 
nical Research Centre of Finland) and Intelligent Web 
Services (Helsinki School of Science and Technology), 
StatHouse Semantics and Automatic content classifica- 


tion and ontologies (Seerco Ltd) [38]. 


Recently, A joint project on speech synthesis between 
the University of Helsinki and Aalto University has 
been very successful in the new field of statistical para- 
metric synthesis based on Hidden Markov Models and 
a new, physiologically grounded vocoding technology. 


Developing speech synthesis is very data oriented. 


EU funded projects in Finland since the 1980's include 
LR SIMPLE, LR PAROLE and MLIS 5008 LING- 
MACHINE. The Common Language Resources and 
Technology Infrastructure (CLARIN) was funded by 
the Commission during 2008-2010, and the work 
within the initiative continues. The national part FIN- 
CLARIN is funded by the Ministry of Education and 
The FIN-CLARIN consortium comprises 
the following partners: IT Center for Science CSC, 
The Institute for the Languages of Finland KOTUS, 
the universities of Helsinki, Eastern Finland, Jyvaskyla, 


Culture. 


Oulu, Tampere, Turku, Vaasa, Aalto University and 
Abo Akademi. HFST (Helsinki Finite State Trans- 
ducer Technology), OMor (Open Source Morpholo- 
gies), FinnWordNet, and FinnTreeBank are examples of 


currently ongoing projects. 


Language Technology at the University of Helsinki 
also cooperated in 2000-2004 on an international 
level in several projects within the Spragteknologipro- 
gram (Nordic Language Technology Research Pro- 
gram) funded by the Nordic Council of Ministers. The 
Finnish Language Technology documentation centre 
FiLT was established to promote availability of lan- 
guage technology resources, both for commercial and 
academic players. 

As we have seen, previous programmes have led to the 
development of a number of LT tools and resources for 
the Finnish language. In the following section, the cur- 


rent state of LT support for Finnish is summarised. 


4.6 AVAILABILITY OF TOOLS 
AND RESOURCES 


Table 7 summarises the current state of language tech- 
nology support for the Finnish language. The rating for 
existing tools and resources was generated by leading ex- 
perts in the field who provided estimates based ona scale 
from 0 (very low) to 6 (very high) according to seven cri- 
teria. 

The key results for the Finnish language can be summed 


up as follows: 


« While some specific corpora of high quality exist, 
sufficiently large syntactically annotated corpora are 
not available yet and many of the resources lack stan- 
dardisation. The commercial sector in Finland needs 
large, up-to date resources for the product develop- 
ment targeted to the big public. 

= There are several tools for syntactical analysis avail- 
able based on various linguistic models. In gen- 
eral, they work well given the particularities of the 
Finnish language. Work on semantics has not led to 
applications yet. 

= In Speech technology, the biggest leap forward in 


Finland has been taken in the area of speech recog- 
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7: State of language technology support for Finnish 
nition. Due to the particularities of Finnish, the as part of it leading to licensing and limited rights to 
word lists or lexicons required for speech recogni- use the tool in other environments. 
tion have been impractically large. A speech tech- There are few multimodal resources and virtually 


nology research group at the Helsinki University of no advanced discourse processing tools available for 


Technology (Aalto university) presented already in Finely 


2002 a method for automated word segmentation oo, : ; ; 
» Anunclear legal situation restricts making use of dig- 


1 i ize of the lexi - 
Pe ee ane eee eon ital texts, such as those published online by news- 


ically. Thi k hh imple- 
ically. This breakthrough has not yet been imple papers, for empirical linguistic and language tech- 


mented in the commercial sector. Speech synthesis me 
nology research, for example, to train statistical lan- 


research has moved forward considerably during the 


guage models. Together with politicians and pol- 


last few years. However, the work is still in the labo- 
» icy makers, researchers should try to establish laws 


ratory phase, and considerable resources are needed 
or regulations that enable researchers to use publicly 


bring th h ket. Speech 
a a a a a available texts for language-related R&D activities. 


are hard to collect and require a lot of work. 


There are only very few projects working on infor- To conclude, in a number of specific areas of Finnish 
mation retrieval for Finnish. It is more usual to take —_ language research, we have software with limited func- 


an existing tool and implement a Finnish stemmer __ tionality available today. Obviously, further research ef- 
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forts are required to meet the current deficit in process- 
ing texts on a deeper semantic level and to address the 
lack of resources such as parallel corpora for machine 


translation. 


4.7 CROSS-LANGUAGE 
COMPARISON 


The current state of LT support varies considerably from 
one language community to another. In order to com- 
pare the situation between languages, this section will 
present an evaluation based on two sample application 
areas (machine translation and speech processing) and 
one underlying technology (text analysis), as well as ba- 
sic resources needed for building LT applications. 

The languages were categorised using the following five- 


point scale: 


1. Excellent support 
Good support 


Moderate support 


mw oO. 


Fragmentary support 


5. Weak or no support 


Language Technology support was measured according 


to the following criteria: 


= Speech Processing: Quality of existing speech recog- 
nition technologies, quality of existing speech syn- 
thesis technologies, coverage of domains, number 
and size of existing speech corpora, amount and va- 


riety of available speech-based applications 


# Machine Translation: Quality of existing MT tech- 
nologies, number of language pairs covered, cover- 
age of linguistic phenomena and domains, quality 
and size of existing parallel corpora, amount and va- 


riety of available MT applications 


» Text Analysis: Quality and coverage of existing 
text analysis technologies (morphology, syntax, se- 
mantics), coverage of linguistic phenomena and do- 
mains, amount and variety of available applications, 
quality and size of existing (annotated) text corpora, 
quality and coverage of existing lexical resources 


(e. g., WordNet) and grammars 


# Resources: Quality and size of existing text corpora, 
speech corpora and parallel corpora, quality and coy- 


erage of existing lexical resources and grammars 


Figures 8 to 11 (p. 68 and 69) show that the LT funding 
and thus the resources available for developing resources 
for the Finnish language in the recent decades has been 
smaller than for the major European languages in gen- 
eral, and particularly English. Based on the evaluation, 
machine translation technologies for Finnish have been 
classified to the cluster of low support. For speech pro- 
cessing, current technologies perform well enough to be 
successfully integrated into a number of industrial appli- 
cations such as spoken dialogue and dictation systems, 
especially for special languages. The need for language 
resources both for text and speech technologies is evi- 
dent. Text analysis components already cover the lin- 
guistic phenomena of Finnish to a certain extent and 
form part of many applications, e. g. spelling correction 


and function on a satisfactory level. 


For building more sophisticated applications, such as 
machine translation, there is a clear need for resources 
and technologies that cover a wider range of linguis- 
tic aspects and allow a deep semantic analysis of the 
input text. By improving the quality and coverage of 
these basic resources and technologies, we shall be able 
to open up new opportunities for tackling a vast range of 
advanced application areas, including high-quality ma- 


chine translation. 
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4.8 CONCLUSIONS 


In this series of white papers, we have made an impor- 
tant effort by assessing the language technology support 
for 30 European languages, and by providing a high- 
level comparison across these languages. By identifying 
the gaps, needs and deficits, the European language tech- 
nology community and its related stakeholders are now 
in a position to design a large scale research and develop- 
ment programme aimed at building a truly multilingual, 
technology-enabled communication across Europe. 

We have seen that there are huge differences between 
Europe’s languages. While there are good quality soft- 
ware and resources available for some languages and ap- 
plication areas, others (usually ‘smaller’ languages) have 
substantial gaps. Many languages lack basic technolo- 
gies for text analysis and the essential resources for de- 
veloping these technologies. Others have basic tools and 
resources but are as yet unable to invest in semantic pro- 
cessing. We therefore still need to make a large-scale 
effort to attain the ambitious goal of providing high- 
quality machine translation between all European lan- 
guages. 

Basic research in language technology was well funded 
in the 1980’s and 1990's but since then the funding 
has been less satisfying. Even if some language tech- 
nology development projects received funding in the 
2000's from the leading Finnish funding agencies, the 
Finnish Funding Agency for Technology and Innova- 
tion (Tekes) and the Academy of Finland, the results 
and material developed in these projects have not been 
widely and openly distributed. As the present report 
shows, the situation in language technology is accept- 
able only for the most basic tools and resources. Fin- 
land is lagging behind in the development of essential 
digital resources necessary for the survival of a language 
as defined in the BLARK (Basic Language Resource 


Kit) for speech, text and lexicons. The BLARK is es- 
sential in developing the language technology modules 
for creating language technology tools. There is a grow- 
ing demand for large-scale up-to-date resources for the 
language technology research and product development 
for the benefit of the Finnish society. 

Current efforts within the large-scale European research 
infrastructure project Common Language Re-sources 
and Technology Infrastructure (CLARIN) and in the 
Multilingual Europe Technology Alliance (META) aim 
at supporting language resource and technology distri- 
bution and access on a European level. However, the 
national needs in Finland have not yet been adequately 
addressed. 

Our findings show that the only alternative is to make 
a substantial effort to create LT resources for Finnish, 
and use them to drive forward research, innovation and 
development. The need for large amounts of data and 
the extreme complexity of language technology systems 
makes it vital to develop a new infrastructure and a more 
coherent research organisation to spur greater sharing 
and cooperation. 

There is also a lack of continuity in research and devel- 
opment funding. Short-term coordinated programmes 
tend to alternate with periods of sparse or zero funding. 
We can therefore conclude that there is a desperate need 
for a large, coordinated initiative focused on overcom- 
ing the differences in language technology readiness for 
European languages as a whole. 

META-NET’s long-term goal is to introduce high- 
quality language technology for all languages in order 
to achieve political and economic unity through cul- 
tural diversity. The technology will help tear down ex- 
isting barriers and build bridges between Europe’s lan- 
guages. This requires all stakeholders — in politics, re- 
search, business, and society — to unite their efforts for 


the future. 
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ABOUT META-NET 


META-NET is a Network of Excellence partially 
funded by the European Commission. The network 
currently consists of 54 research centres in 33 European 
countries [1]. META-NET forges META, the Multi- 
lingual Europe Technology Alliance, a growing commu- 
nity of language technology professionals and organisa- 
tions in Eu-rope. META-NET fosters the technological 
foundations for a truly multilingual European informa- 


tion society that: 


= makes communication and cooperation possible 


across languages; 


grants all Europeans equal access to information and 


knowledge regardless of their language; 


builds upon and advances functionalities of net- 


worked information technology. 


The network supports a Europe that unites as a sin- 
gle digital market and information space. It stimulates 
and promotes multilingual technologies for all Euro- 
pean languages. These technologies support automatic 
translation, content production, information process- 
ing and knowledge management for a wide variety of 
subject domains and applications. They also enable in- 
tuitive language-based interfaces to technology rang- 
ing from household electronics, machinery and vehi- 
cles to computers and robots. Launched on | February 
2010, META-NET has already conducted various activ- 
ities in its three lines of action META-VISION, META- 
SHARE and META-RESEARCH. 

META-VISION fosters a dynamic and influential 
stakeholder community that unites around a shared vi- 


sion and a common strategic research agenda (SRA). 


The main focus of this activity is to build a coherent 
and cohesive LT community in Europe by bringing to- 
gether representatives from highly fragmented and di- 
verse groups of stakeholders. The present White Paper 
was prepared together with volumes for 29 other lan- 
guages. The shared technology vision was developed in 
three sectorial Vision Groups. The META Technology 
Council was established in order to discuss and to pre- 
pare the SRA based on the vision in close interaction 


with the entire LT community. 


META-SHARE creates an open, distributed facility 
for exchanging and sharing resources. The peer-to- 
peer network of repositories will contain language data, 
tools and web services that are documented with high- 
quality metadata and organised in standardised cate- 
gories. The resources can be readily accessed and uni- 
formly searched. The available resources include free, 


open source materials as well as restricted, commercially 


available, fee-based items. 


META-RESEARCH builds bridges to related tech- 
nology fields. This activity seeks to leverage advances 
in other fields and to capitalise on innovative research 
that can benefit language technology. In particular, the 
action line focuses on conducting leading-edge research 
in machine translation, collecting data, preparing data 
sets and organising language resources for evaluation 
purposes; compiling inventories of tools and methods; 
and organising workshops and training events for mem- 


bers of the community. 


office@meta-net.eu — http://www.meta-net.eu 
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Department of Modern Languages, University of Helsinki: Kimmo Koskenniemi, 


Krister Lindén 
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Tanska Denmark Centre for Language Technology, University of Copenhagen: 
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Lahes 100 kieliteknologian asiantuntijaa, jotka edustavat META-NET -hankkeen jasenmaita ja kansallisia kielia, 
viimeistelivat META-NET valkoisten kirjojen julkaisusarjan keskeiset tulokset ja sanoman META-NET -hankkeen Ber- 
liinissd, Saksassa pidetyssa kokouksessa 2 1-22.10.2011.— About 100 language technology experts - represen- 
tatives of the countries and languages represented in META-NET - discussed and finalised the key results and 
messages of the White Paper Series at a META-NET meeting in Berlin, Germany, on October 21/22, 2011. 
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